config.json: 0%| | 0.00/727 [00:00, ?B/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 727/727 [00:00<00:00, 3.89MB/s]
[2025-12-23 14:23:14,631] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:5064] baseline 0.000GB ()
[2025-12-23 14:23:14,631] [INFO] [axolotl.cli.config.load_cfg:248] [PID:5064] config:
{
"activation_offloading": false,
"auto_resume_from_checkpoints": true,
"axolotl_config_path": "config.yaml",
"base_model": "Qwen/Qwen3-4B-Instruct-2507",
"base_model_config": "Qwen/Qwen3-4B-Instruct-2507",
"batch_size": 32,
"bf16": true,
"capabilities": {
"bf16": true,
"compute_capability": "sm_90",
"fp8": false,
"n_gpu": 1,
"n_node": 1
},
"chat_template": "qwen3",
"context_parallel_size": 1,
"dataloader_num_workers": 1,
"dataloader_pin_memory": true,
"dataloader_prefetch_factor": 256,
"dataset_processes": 18,
"datasets": [
{
"chat_template": "tokenizer_default",
"field_messages": "conversations",
"message_property_mappings": {
"content": "value",
"role": "from"
},
"path": "./dataset/abd_full_train.jsonl",
"roles": {
"assistant": [
"gpt"
],
"system": [
"system"
],
"user": [
"human"
]
},
"trust_remote_code": false,
"type": "chat_template"
}
],
"ddp": false,
"device": "cuda:0",
"dion_rank_fraction": 1.0,
"dion_rank_multiple_of": 1,
"env_capabilities": {
"torch_version": "2.7.1"
},
"eval_batch_size": 2,
"eval_causal_lm_metrics": [
"sacrebleu",
"comet",
"ter",
"chrf"
],
"eval_max_new_tokens": 128,
"eval_table_size": 0,
"experimental_skip_move_to_device": true,
"flash_attention": true,
"fp16": false,
"gradient_accumulation_steps": 16,
"gradient_checkpointing": true,
"gradient_checkpointing_kwargs": {
"use_reentrant": true
},
"include_tkps": true,
"is_falcon_derived_model": false,
"is_llama_derived_model": false,
"is_mistral_derived_model": false,
"learning_rate": 5e-06,
"lisa_layers_attribute": "model.layers",
"load_best_model_at_end": false,
"load_in_4bit": false,
"load_in_8bit": false,
"local_rank": 0,
"lora_dropout": 0.0,
"loraplus_lr_embedding": 1e-06,
"lr_scheduler": "cosine",
"mean_resizing_embeddings": false,
"micro_batch_size": 2,
"model_config_type": "qwen3",
"num_epochs": 10.0,
"optimizer": "adamw_torch_fused",
"output_dir": "./outputs/qwen3-4b-instruct-abd-full-train",
"pretrain_multipack_attn": true,
"profiler_steps_start": 0,
"qlora_sharded_model_loading": false,
"ray_num_workers": 1,
"resources_per_worker": {
"GPU": 1
},
"sample_packing": false,
"sample_packing_bin_size": 200,
"sample_packing_group_size": 100000,
"save_only_model": false,
"save_safetensors": true,
"sequence_len": 4096,
"shuffle_before_merging_datasets": false,
"shuffle_merged_datasets": true,
"skip_prepare_dataset": false,
"streaming_multipack_buffer_size": 10000,
"strict": false,
"tensor_parallel_size": 1,
"tf32": true,
"tiled_mlp_use_original_mlp": true,
"tokenizer_config": "Qwen/Qwen3-4B-Instruct-2507",
"tokenizer_save_jinja_files": true,
"tokenizer_type": "AutoTokenizer",
"torch_dtype": "torch.bfloat16",
"train_on_inputs": false,
"trl": {
"log_completions": false,
"mask_truncated_completions": false,
"ref_model_mixup_alpha": 0.9,
"ref_model_sync_steps": 64,
"scale_rewards": true,
"sync_ref_model": false,
"use_vllm": false,
"vllm_server_host": "0.0.0.0",
"vllm_server_port": 8000
},
"type_of_model": "AutoModelForCausalLM",
"use_ray": false,
"val_set_size": 0.0,
"vllm": {
"device": "auto",
"dtype": "auto",
"gpu_memory_utilization": 0.9,
"host": "0.0.0.0",
"port": 8000
},
"warmup_steps": 100,
"weight_decay": 0.01,
"world_size": 1
}
tokenizer_config.json: 0.00B [00:00, ?B/s]
tokenizer_config.json: 9.38kB [00:00, 27.5MB/s]
vocab.json: 0.00B [00:00, ?B/s]
vocab.json: 2.78MB [00:00, 73.5MB/s]
merges.txt: 0.00B [00:00, ?B/s]
merges.txt: 1.67MB [00:00, 82.2MB/s]
tokenizer.json: 0%| | 0.00/11.4M [00:00, ?B/s]
tokenizer.json: 100%|█████████████████████████████████████████████████████████████████████████████████████| 11.4M/11.4M [00:00<00:00, 25.7MB/s]
tokenizer.json: 100%|█████████████████████████████████████████████████████████████████████████████████████| 11.4M/11.4M [00:00<00:00, 25.7MB/s]
[2025-12-23 14:23:16,345] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5064] EOS: 151645 / <|im_end|>
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5064] BOS: None / None
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5064] PAD: 151643 / <|endoftext|>
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5064] UNK: None / None
[2025-12-23 14:23:16,347] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:5064] Unable to find prepared dataset in last_run_prepared/b1fab737da515ce3143dcd64b15cef47
[2025-12-23 14:23:16,348] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:5064] Loading raw datasets...
[2025-12-23 14:23:16,348] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:5064] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 19344 examples [00:00, 136525.22 examples/s]
Generating train split: 22912 examples [00:00, 104106.07 examples/s]
[2025-12-23 14:23:16,731] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:5064] Loading dataset: ./dataset/abd_full_train.jsonl with base_type: chat_template and prompt_style: None
[2025-12-23 14:23:16,746] [INFO] [axolotl.prompt_strategies.chat_template.__call__:969] [PID:5064] Using chat template:
---
{%- if tools %}
{{- '<|im_start|>system\n' }}
{%- if messages[0].role == 'system' %}
{{- messages[0].content + '\n\n' }}
{%- endif %}
{{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within XML tags:\n" }}
{%- for tool in tools %}
{{- "\n" }}
{{- tool | tojson }}
{%- endfor %}
{{- "\n\n\nFor each function call, return a json object with function name and arguments within XML tags:\n\n{\"name\": , \"arguments\": }\n<|im_end|>\n" }}
{%- else %}
{%- if messages[0].role == 'system' %}
{{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
{%- endif %}
{%- endif %}
{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
{%- for message in messages[::-1] %}
{%- set index = (messages|length - 1) - loop.index0 %}
{%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('') and message.content.endswith('')) %}
{%- set ns.multi_step_tool = false %}
{%- set ns.last_query_index = index %}
{%- endif %}
{%- endfor %}
{%- for message in messages %}
{%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
{{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
{%- elif message.role == "assistant" %}
{%- set content = message.content %}
{%- set reasoning_content = '' %}
{%- if message.reasoning_content is defined and message.reasoning_content is not none %}
{%- set reasoning_content = message.reasoning_content %}
{%- else %}
{%- if '' in message.content %}
{%- set content = message.content.split('')[-1].lstrip('\n') %}
{%- set reasoning_content = message.content.split('')[0].rstrip('\n').split('')[-1].lstrip('\n') %}
{%- endif %}
{%- endif %}
{%- if loop.index0 > ns.last_query_index %}
{%- if loop.last or (not loop.last and reasoning_content) %}
{{- '<|im_start|>' + message.role + '\n\n' + reasoning_content.strip('\n') + '\n\n\n' + content.lstrip('\n') }}
{%- else %}
{{- '<|im_start|>' + message.role + '\n' + content }}
{%- endif %}
{%- else %}
{{- '<|im_start|>' + message.role + '\n' + content }}
{%- endif %}
{%- if message.tool_calls %}
{%- for tool_call in message.tool_calls %}
{%- if (loop.first and content) or (not loop.first) %}
{{- '\n' }}
{%- endif %}
{%- if tool_call.function %}
{%- set tool_call = tool_call.function %}
{%- endif %}
{{- '\n{"name": "' }}
{{- tool_call.name }}
{{- '", "arguments": ' }}
{%- if tool_call.arguments is string %}
{{- tool_call.arguments }}
{%- else %}
{{- tool_call.arguments | tojson }}
{%- endif %}
{{- '}\n' }}
{%- endfor %}
{%- endif %}
{{- '<|im_end|>\n' }}
{%- elif message.role == "tool" %}
{%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
{{- '<|im_start|>user' }}
{%- endif %}
{{- '\n\n' }}
{{- message.content }}
{{- '\n' }}
{%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
{{- '<|im_end|>\n' }}
{%- endif %}
{%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
{{- '<|im_start|>assistant\n' }}
{%- if enable_thinking is defined and enable_thinking is false %}
{{- '\n\n\n\n' }}
{%- else %}
{{- '\n\n' }}
{%- endif %}
{%- endif %}
---
Tokenizing Prompts (num_proc=18): 0%| | 0/22912 [00:00, ? examples/s]
Tokenizing Prompts (num_proc=18): 4%|██▌ | 1000/22912 [00:02<01:04, 341.69 examples/s]
Tokenizing Prompts (num_proc=18): 9%|█████▏ | 2000/22912 [00:03<00:28, 744.91 examples/s]
Tokenizing Prompts (num_proc=18): 26%|███████████████▏ | 6000/22912 [00:03<00:06, 2790.56 examples/s]
Tokenizing Prompts (num_proc=18): 35%|████████████████████▎ | 8000/22912 [00:03<00:03, 3913.20 examples/s]
Tokenizing Prompts (num_proc=18): 43%|████████████████████████▊ | 9819/22912 [00:03<00:03, 4052.52 examples/s]
Tokenizing Prompts (num_proc=18): 47%|██████████████████████████▉ | 10819/22912 [00:04<00:02, 4582.71 examples/s]
Tokenizing Prompts (num_proc=18): 53%|██████████████████████████████ | 12092/22912 [00:04<00:01, 5494.48 examples/s]
Tokenizing Prompts (num_proc=18): 64%|████████████████████████████████████▍ | 14638/22912 [00:04<00:01, 6286.27 examples/s]
Tokenizing Prompts (num_proc=18): 71%|████████████████████████████████████████▎ | 16184/22912 [00:04<00:00, 6810.51 examples/s]
Tokenizing Prompts (num_proc=18): 77%|████████████████████████████████████████████ | 17730/22912 [00:04<00:00, 6967.84 examples/s]
Tokenizing Prompts (num_proc=18): 83%|███████████████████████████████████████████████▎ | 19003/22912 [00:05<00:00, 5653.04 examples/s]
Tokenizing Prompts (num_proc=18): 87%|█████████████████████████████████████████████████▊ | 20003/22912 [00:05<00:00, 6205.68 examples/s]
Tokenizing Prompts (num_proc=18): 91%|███████████████████████████████████████████████████▊ | 20821/22912 [00:05<00:00, 5474.91 examples/s]
Tokenizing Prompts (num_proc=18): 95%|██████████████████████████████████████████████████████▎ | 21821/22912 [00:05<00:00, 5020.30 examples/s]
Tokenizing Prompts (num_proc=18): 99%|████████████████████████████████████████████████████████▎| 22640/22912 [00:06<00:00, 3836.07 examples/s]
Tokenizing Prompts (num_proc=18): 100%|█████████████████████████████████████████████████████████| 22912/22912 [00:06<00:00, 3495.39 examples/s]
[2025-12-23 14:23:23,525] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:5064] min_input_len: 129
[2025-12-23 14:23:23,526] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:5064] max_input_len: 888742
Dropping Long Sequences (>4096) (num_proc=18): 0%| | 0/22912 [00:00, ? examples/s]
Dropping Long Sequences (>4096) (num_proc=18): 4%|█▉ | 1000/22912 [00:00<00:10, 2118.66 examples/s]
Dropping Long Sequences (>4096) (num_proc=18): 81%|██████████████████████████████████▊ | 18548/22912 [00:00<00:00, 41203.48 examples/s]
Dropping Long Sequences (>4096) (num_proc=18): 100%|███████████████████████████████████████████| 22912/22912 [00:00<00:00, 26903.42 examples/s]
[2025-12-23 14:23:24,416] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:5064] Dropped 82 samples from dataset
Saving the dataset (0/18 shards): 0%| | 0/22830 [00:00, ? examples/s]
Saving the dataset (0/18 shards): 6%|███▏ | 1269/22830 [00:00<00:06, 3464.43 examples/s]
Saving the dataset (1/18 shards): 6%|███▏ | 1269/22830 [00:00<00:06, 3464.43 examples/s]
Saving the dataset (2/18 shards): 11%|██████▍ | 2538/22830 [00:00<00:05, 3464.43 examples/s]
Saving the dataset (3/18 shards): 17%|█████████▋ | 3807/22830 [00:00<00:05, 3464.43 examples/s]
Saving the dataset (4/18 shards): 32%|██████████████████▋ | 7344/22830 [00:00<00:04, 3464.43 examples/s]
Saving the dataset (5/18 shards): 32%|██████████████████▋ | 7344/22830 [00:00<00:04, 3464.43 examples/s]
Saving the dataset (6/18 shards): 38%|█████████████████████▉ | 8612/22830 [00:00<00:04, 3464.43 examples/s]
Saving the dataset (7/18 shards): 39%|██████████████████████▌ | 8881/22830 [00:00<00:04, 3464.43 examples/s]
Saving the dataset (8/18 shards): 50%|████████████████████████████▌ | 11417/22830 [00:00<00:03, 3464.43 examples/s]
Saving the dataset (9/18 shards): 50%|████████████████████████████▌ | 11417/22830 [00:00<00:03, 3464.43 examples/s]
Saving the dataset (10/18 shards): 56%|███████████████████████████████ | 12686/22830 [00:00<00:02, 3464.43 examples/s]
Saving the dataset (11/18 shards): 61%|██████████████████████████████████▏ | 13954/22830 [00:00<00:02, 3464.43 examples/s]
Saving the dataset (12/18 shards): 72%|████████████████████████████████████████▍ | 16490/22830 [00:00<00:01, 3464.43 examples/s]
Saving the dataset (13/18 shards): 72%|████████████████████████████████████████▍ | 16490/22830 [00:00<00:01, 3464.43 examples/s]
Saving the dataset (14/18 shards): 78%|███████████████████████████████████████████▌ | 17758/22830 [00:00<00:01, 3464.43 examples/s]
Saving the dataset (15/18 shards): 89%|█████████████████████████████████████████████████▊ | 20294/22830 [00:00<00:00, 3464.43 examples/s]
Saving the dataset (16/18 shards): 89%|█████████████████████████████████████████████████▊ | 20294/22830 [00:00<00:00, 3464.43 examples/s]
Saving the dataset (17/18 shards): 94%|████████████████████████████████████████████████████▉ | 21562/22830 [00:00<00:00, 3464.43 examples/s]
Saving the dataset (18/18 shards): 100%|████████████████████████████████████████████████████████| 22830/22830 [00:00<00:00, 3464.43 examples/s]
Saving the dataset (18/18 shards): 100%|███████████████████████████████████████████████████████| 22830/22830 [00:00<00:00, 46554.64 examples/s]
[2025-12-23 14:23:25,220] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:5064] total_num_tokens: 8_917_917
[2025-12-23 14:23:25,331] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:5064] `total_supervised_tokens: 5_768_085`
[2025-12-23 14:23:25,332] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:5064] total_num_steps: 7135
[2025-12-23 14:23:25,332] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:5064] Maximum number of steps set at 7135
[2025-12-23 14:23:25,357] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:5064] Loading tokenizer... Qwen/Qwen3-4B-Instruct-2507
[2025-12-23 14:23:25,788] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5064] EOS: 151645 / <|im_end|>
[2025-12-23 14:23:25,789] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5064] BOS: None / None
[2025-12-23 14:23:25,789] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5064] PAD: 151643 / <|endoftext|>
[2025-12-23 14:23:25,790] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5064] UNK: None / None
[2025-12-23 14:23:25,790] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:5064] Loading model
[2025-12-23 14:23:25,846] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:5064] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-12-23 14:23:25,847] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:5064] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
model.safetensors.index.json: 0.00B [00:00, ?B/s]
model.safetensors.index.json: 32.8kB [00:00, 102MB/s]
model-00001-of-00003.safetensors: 0%| | 0.00/3.96G [00:00, ?B/s]
model-00001-of-00003.safetensors: 0%| | 630k/3.96G [00:00<1:39:50, 661kB/s]
model-00001-of-00003.safetensors: 0%| | 2.15M/3.96G [00:01<37:26, 1.76MB/s]
model-00001-of-00003.safetensors: 3%|██▍ | 136M/3.96G [00:01<00:30, 124MB/s]
model-00001-of-00003.safetensors: 7%|████▋ | 270M/3.96G [00:01<00:15, 238MB/s]
model-00001-of-00003.safetensors: 9%|█████▉ | 338M/3.96G [00:02<00:13, 261MB/s]
model-00001-of-00003.safetensors: 10%|███████ | 405M/3.96G [00:02<00:13, 260MB/s]
model-00001-of-00003.safetensors: 12%|████████▏ | 471M/3.96G [00:02<00:16, 214MB/s]
model-00001-of-00003.safetensors: 14%|█████████▍ | 538M/3.96G [00:03<00:15, 223MB/s]
model-00001-of-00003.safetensors: 15%|██████████▌ | 605M/3.96G [00:03<00:13, 248MB/s]
model-00001-of-00003.safetensors: 17%|███████████▋ | 672M/3.96G [00:03<00:12, 253MB/s]
model-00001-of-00003.safetensors: 19%|████████████▉ | 739M/3.96G [00:03<00:12, 258MB/s]
model-00001-of-00003.safetensors: 20%|██████████████ | 806M/3.96G [00:04<00:12, 257MB/s]
model-00001-of-00003.safetensors: 22%|███████████████▏ | 873M/3.96G [00:04<00:10, 283MB/s]
model-00001-of-00003.safetensors: 24%|████████████████▍ | 940M/3.96G [00:04<00:09, 307MB/s]
model-00001-of-00003.safetensors: 25%|█████████████████▎ | 1.01G/3.96G [00:04<00:10, 288MB/s]
model-00001-of-00003.safetensors: 27%|██████████████████▍ | 1.07G/3.96G [00:04<00:08, 324MB/s]
model-00001-of-00003.safetensors: 29%|███████████████████▌ | 1.14G/3.96G [00:04<00:08, 337MB/s]
model-00001-of-00003.safetensors: 31%|████████████████████▊ | 1.21G/3.96G [00:05<00:07, 357MB/s]
model-00001-of-00003.safetensors: 32%|█████████████████████▉ | 1.28G/3.96G [00:05<00:07, 356MB/s]
model-00001-of-00003.safetensors: 34%|███████████████████████ | 1.34G/3.96G [00:05<00:07, 352MB/s]
model-00001-of-00003.safetensors: 36%|████████████████████████▏ | 1.41G/3.96G [00:05<00:07, 354MB/s]
model-00001-of-00003.safetensors: 37%|█████████████████████████▍ | 1.48G/3.96G [00:05<00:06, 357MB/s]
model-00001-of-00003.safetensors: 39%|██████████████████████████▌ | 1.54G/3.96G [00:06<00:06, 355MB/s]
model-00001-of-00003.safetensors: 41%|███████████████████████████▋ | 1.61G/3.96G [00:06<00:06, 362MB/s]
model-00001-of-00003.safetensors: 42%|████████████████████████████▊ | 1.68G/3.96G [00:06<00:06, 336MB/s]
model-00001-of-00003.safetensors: 44%|█████████████████████████████▉ | 1.75G/3.96G [00:06<00:07, 316MB/s]
model-00001-of-00003.safetensors: 46%|███████████████████████████████▏ | 1.81G/3.96G [00:06<00:06, 328MB/s]
model-00001-of-00003.safetensors: 47%|████████████████████████████████▎ | 1.88G/3.96G [00:07<00:05, 349MB/s]
model-00001-of-00003.safetensors: 49%|█████████████████████████████████▍ | 1.95G/3.96G [00:07<00:06, 313MB/s]
model-00001-of-00003.safetensors: 51%|██████████████████████████████████▌ | 2.01G/3.96G [00:07<00:05, 335MB/s]
model-00001-of-00003.safetensors: 53%|███████████████████████████████████▋ | 2.08G/3.96G [00:07<00:05, 362MB/s]
model-00001-of-00003.safetensors: 54%|████████████████████████████████████▉ | 2.15G/3.96G [00:07<00:05, 345MB/s]
model-00001-of-00003.safetensors: 56%|██████████████████████████████████████ | 2.22G/3.96G [00:08<00:07, 247MB/s]
model-00001-of-00003.safetensors: 58%|███████████████████████████████████████▏ | 2.28G/3.96G [00:08<00:06, 271MB/s]
model-00001-of-00003.safetensors: 59%|████████████████████████████████████████▎ | 2.35G/3.96G [00:08<00:05, 274MB/s]
model-00001-of-00003.safetensors: 61%|█████████████████████████████████████████▌ | 2.42G/3.96G [00:09<00:05, 285MB/s]
model-00001-of-00003.safetensors: 63%|██████████████████████████████████████████▋ | 2.48G/3.96G [00:09<00:05, 282MB/s]
model-00001-of-00003.safetensors: 64%|███████████████████████████████████████████▊ | 2.55G/3.96G [00:09<00:04, 297MB/s]
model-00001-of-00003.safetensors: 66%|████████████████████████████████████████████▉ | 2.62G/3.96G [00:09<00:04, 294MB/s]
model-00001-of-00003.safetensors: 68%|██████████████████████████████████████████████ | 2.68G/3.96G [00:09<00:04, 287MB/s]
model-00001-of-00003.safetensors: 70%|███████████████████████████████████████████████▎ | 2.75G/3.96G [00:10<00:04, 285MB/s]
model-00001-of-00003.safetensors: 71%|████████████████████████████████████████████████▍ | 2.82G/3.96G [00:10<00:03, 305MB/s]
model-00001-of-00003.safetensors: 73%|█████████████████████████████████████████████████▌ | 2.88G/3.96G [00:10<00:03, 326MB/s]
model-00001-of-00003.safetensors: 75%|██████████████████████████████████████████████████▋ | 2.95G/3.96G [00:10<00:03, 331MB/s]
model-00001-of-00003.safetensors: 76%|███████████████████████████████████████████████████▊ | 3.02G/3.96G [00:10<00:02, 356MB/s]
model-00001-of-00003.safetensors: 78%|█████████████████████████████████████████████████████ | 3.09G/3.96G [00:11<00:02, 327MB/s]
model-00001-of-00003.safetensors: 80%|██████████████████████████████████████████████████████▏ | 3.15G/3.96G [00:11<00:02, 309MB/s]
model-00001-of-00003.safetensors: 81%|███████████████████████████████████████████████████████▎ | 3.22G/3.96G [00:11<00:02, 331MB/s]
model-00001-of-00003.safetensors: 83%|████████████████████████████████████████████████████████▍ | 3.29G/3.96G [00:11<00:01, 356MB/s]
model-00001-of-00003.safetensors: 85%|█████████████████████████████████████████████████████████▋ | 3.35G/3.96G [00:11<00:01, 326MB/s]
model-00001-of-00003.safetensors: 86%|██████████████████████████████████████████████████████████▊ | 3.42G/3.96G [00:12<00:01, 326MB/s]
model-00001-of-00003.safetensors: 88%|███████████████████████████████████████████████████████████▉ | 3.49G/3.96G [00:12<00:01, 314MB/s]
model-00001-of-00003.safetensors: 90%|█████████████████████████████████████████████████████████████ | 3.56G/3.96G [00:12<00:01, 319MB/s]
model-00001-of-00003.safetensors: 92%|██████████████████████████████████████████████████████████████▏ | 3.62G/3.96G [00:12<00:01, 273MB/s]
model-00001-of-00003.safetensors: 93%|███████████████████████████████████████████████████████████████▍ | 3.69G/3.96G [00:13<00:00, 290MB/s]
model-00001-of-00003.safetensors: 95%|████████████████████████████████████████████████████████████████▌ | 3.76G/3.96G [00:13<00:00, 304MB/s]
model-00001-of-00003.safetensors: 97%|█████████████████████████████████████████████████████████████████▋ | 3.82G/3.96G [00:13<00:00, 316MB/s]
model-00001-of-00003.safetensors: 98%|██████████████████████████████████████████████████████████████████▊ | 3.89G/3.96G [00:13<00:00, 356MB/s]
model-00001-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:13<00:00, 378MB/s]
model-00001-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:13<00:00, 288MB/s]
model-00002-of-00003.safetensors: 0%| | 0.00/3.99G [00:00, ?B/s]
model-00002-of-00003.safetensors: 0%| | 880k/3.99G [00:01<1:21:31, 815kB/s]
model-00002-of-00003.safetensors: 2%|█▏ | 67.9M/3.99G [00:01<01:20, 48.5MB/s]
model-00002-of-00003.safetensors: 3%|██▎ | 137M/3.99G [00:02<00:42, 90.2MB/s]
model-00002-of-00003.safetensors: 5%|███▌ | 204M/3.99G [00:02<00:32, 118MB/s]
model-00002-of-00003.safetensors: 7%|████▋ | 271M/3.99G [00:02<00:22, 165MB/s]
model-00002-of-00003.safetensors: 8%|█████▊ | 338M/3.99G [00:02<00:19, 188MB/s]
model-00002-of-00003.safetensors: 10%|███████ | 405M/3.99G [00:03<00:16, 217MB/s]
model-00002-of-00003.safetensors: 12%|████████▏ | 472M/3.99G [00:03<00:14, 246MB/s]
model-00002-of-00003.safetensors: 14%|█████████▎ | 539M/3.99G [00:03<00:13, 252MB/s]
model-00002-of-00003.safetensors: 15%|██████████▍ | 606M/3.99G [00:03<00:12, 266MB/s]
model-00002-of-00003.safetensors: 17%|███████████▋ | 673M/3.99G [00:03<00:11, 293MB/s]
model-00002-of-00003.safetensors: 19%|████████████▊ | 740M/3.99G [00:04<00:09, 327MB/s]
model-00002-of-00003.safetensors: 20%|█████████████▉ | 807M/3.99G [00:04<00:09, 340MB/s]
model-00002-of-00003.safetensors: 22%|███████████████▏ | 874M/3.99G [00:04<00:10, 289MB/s]
model-00002-of-00003.safetensors: 24%|████████████████▎ | 941M/3.99G [00:04<00:12, 249MB/s]
model-00002-of-00003.safetensors: 25%|█████████████████▏ | 1.01G/3.99G [00:05<00:13, 213MB/s]
model-00002-of-00003.safetensors: 27%|██████████████████▎ | 1.07G/3.99G [00:05<00:14, 205MB/s]
model-00002-of-00003.safetensors: 29%|███████████████████▍ | 1.14G/3.99G [00:05<00:11, 245MB/s]
model-00002-of-00003.safetensors: 30%|████████████████████▌ | 1.21G/3.99G [00:05<00:10, 272MB/s]
model-00002-of-00003.safetensors: 32%|█████████████████████▊ | 1.28G/3.99G [00:06<00:10, 266MB/s]
model-00002-of-00003.safetensors: 34%|██████████████████████▉ | 1.34G/3.99G [00:06<00:09, 266MB/s]
model-00002-of-00003.safetensors: 35%|████████████████████████ | 1.41G/3.99G [00:06<00:10, 247MB/s]
model-00002-of-00003.safetensors: 37%|█████████████████████████▏ | 1.48G/3.99G [00:07<00:11, 224MB/s]
model-00002-of-00003.safetensors: 39%|██████████████████████████▍ | 1.55G/3.99G [00:07<00:11, 216MB/s]
model-00002-of-00003.safetensors: 40%|███████████████████████████▌ | 1.61G/3.99G [00:07<00:11, 210MB/s]
model-00002-of-00003.safetensors: 42%|████████████████████████████▋ | 1.68G/3.99G [00:08<00:09, 234MB/s]
model-00002-of-00003.safetensors: 44%|█████████████████████████████▊ | 1.75G/3.99G [00:08<00:08, 265MB/s]
model-00002-of-00003.safetensors: 46%|██████████████████████████████▉ | 1.81G/3.99G [00:08<00:07, 304MB/s]
model-00002-of-00003.safetensors: 47%|████████████████████████████████ | 1.88G/3.99G [00:08<00:06, 301MB/s]
model-00002-of-00003.safetensors: 49%|█████████████████████████████████▏ | 1.95G/3.99G [00:08<00:06, 317MB/s]
model-00002-of-00003.safetensors: 51%|██████████████████████████████████▍ | 2.02G/3.99G [00:08<00:05, 345MB/s]
model-00002-of-00003.safetensors: 52%|███████████████████████████████████▌ | 2.08G/3.99G [00:09<00:05, 355MB/s]
model-00002-of-00003.safetensors: 54%|████████████████████████████████████▋ | 2.15G/3.99G [00:09<00:05, 348MB/s]
model-00002-of-00003.safetensors: 56%|█████████████████████████████████████▊ | 2.22G/3.99G [00:09<00:05, 312MB/s]
model-00002-of-00003.safetensors: 57%|██████████████████████████████████████▉ | 2.28G/3.99G [00:09<00:05, 303MB/s]
model-00002-of-00003.safetensors: 59%|████████████████████████████████████████ | 2.35G/3.99G [00:10<00:05, 322MB/s]
model-00002-of-00003.safetensors: 61%|█████████████████████████████████████████▏ | 2.42G/3.99G [00:10<00:04, 321MB/s]
model-00002-of-00003.safetensors: 62%|██████████████████████████████████████████▎ | 2.48G/3.99G [00:10<00:04, 334MB/s]
model-00002-of-00003.safetensors: 64%|███████████████████████████████████████████▍ | 2.55G/3.99G [00:10<00:04, 303MB/s]
model-00002-of-00003.safetensors: 66%|████████████████████████████████████████████▋ | 2.62G/3.99G [00:10<00:04, 302MB/s]
model-00002-of-00003.safetensors: 67%|█████████████████████████████████████████████▊ | 2.68G/3.99G [00:11<00:04, 296MB/s]
model-00002-of-00003.safetensors: 69%|██████████████████████████████████████████████▉ | 2.75G/3.99G [00:11<00:04, 298MB/s]
model-00002-of-00003.safetensors: 71%|████████████████████████████████████████████████ | 2.82G/3.99G [00:11<00:04, 282MB/s]
model-00002-of-00003.safetensors: 72%|█████████████████████████████████████████████████▏ | 2.89G/3.99G [00:11<00:03, 311MB/s]
model-00002-of-00003.safetensors: 74%|██████████████████████████████████████████████████▎ | 2.95G/3.99G [00:11<00:03, 316MB/s]
model-00002-of-00003.safetensors: 76%|███████████████████████████████████████████████████▌ | 3.02G/3.99G [00:12<00:02, 326MB/s]
model-00002-of-00003.safetensors: 77%|████████████████████████████████████████████████████▋ | 3.09G/3.99G [00:12<00:02, 335MB/s]
model-00002-of-00003.safetensors: 79%|█████████████████████████████████████████████████████▊ | 3.15G/3.99G [00:12<00:02, 355MB/s]
model-00002-of-00003.safetensors: 81%|██████████████████████████████████████████████████████▉ | 3.22G/3.99G [00:12<00:02, 354MB/s]
model-00002-of-00003.safetensors: 82%|████████████████████████████████████████████████████████ | 3.29G/3.99G [00:12<00:01, 378MB/s]
model-00002-of-00003.safetensors: 85%|█████████████████████████████████████████████████████████▋ | 3.38G/3.99G [00:13<00:01, 353MB/s]
model-00002-of-00003.safetensors: 87%|██████████████████████████████████████████████████████████▊ | 3.45G/3.99G [00:13<00:01, 334MB/s]
model-00002-of-00003.safetensors: 88%|███████████████████████████████████████████████████████████▉ | 3.52G/3.99G [00:13<00:01, 314MB/s]
model-00002-of-00003.safetensors: 90%|█████████████████████████████████████████████████████████████▏ | 3.59G/3.99G [00:13<00:01, 301MB/s]
model-00002-of-00003.safetensors: 92%|██████████████████████████████████████████████████████████████▎ | 3.65G/3.99G [00:14<00:01, 289MB/s]
model-00002-of-00003.safetensors: 93%|███████████████████████████████████████████████████████████████▍ | 3.72G/3.99G [00:14<00:00, 305MB/s]
model-00002-of-00003.safetensors: 95%|████████████████████████████████████████████████████████████████▌ | 3.79G/3.99G [00:14<00:00, 308MB/s]
model-00002-of-00003.safetensors: 97%|█████████████████████████████████████████████████████████████████▋ | 3.85G/3.99G [00:14<00:00, 339MB/s]
model-00002-of-00003.safetensors: 98%|██████████████████████████████████████████████████████████████████▊ | 3.92G/3.99G [00:14<00:00, 325MB/s]
model-00002-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:15<00:00, 353MB/s]
model-00002-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:15<00:00, 264MB/s]
model-00003-of-00003.safetensors: 0%| | 0.00/99.6M [00:00, ?B/s]
model-00003-of-00003.safetensors: 33%|█████████████████████▉ | 32.6M/99.6M [00:01<00:02, 26.1MB/s]
model-00003-of-00003.safetensors: 100%|███████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 63.2MB/s]
model-00003-of-00003.safetensors: 100%|███████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 55.3MB/s]
Loading checkpoint shards: 0%| | 0/3 [00:00, ?it/s]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 58.11it/s]
generation_config.json: 0%| | 0.00/238 [00:00, ?B/s]
generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████| 238/238 [00:00<00:00, 3.44MB/s]
[2025-12-23 14:23:58,122] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:5064] Converting modules to torch.bfloat16
[2025-12-23 14:23:58,644] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:5064] Memory usage after model load 0.000GB ()
[2025-12-23 14:24:05,044] [INFO] [axolotl.train.save_initial_configs:402] [PID:5064] Pre-saving tokenizer to ./outputs/qwen3-4b-instruct-abd-full-train...
[2025-12-23 14:24:05,280] [INFO] [axolotl.train.save_initial_configs:407] [PID:5064] Pre-saving model config to ./outputs/qwen3-4b-instruct-abd-full-train...
[2025-12-23 14:24:05,288] [INFO] [axolotl.train.execute_training:196] [PID:5064] Starting trainer...
0%| | 0/7135 [00:00, ?it/s]
0%| | 1/7135 [00:04<9:15:47, 4.67s/it]
0%| | 2/7135 [00:07<7:16:03, 3.67s/it]
0%| | 3/7135 [00:10<6:35:51, 3.33s/it]
0%| | 4/7135 [00:13<6:17:10, 3.17s/it]
0%| | 5/7135 [00:17<6:43:18, 3.39s/it]
0%| | 6/7135 [00:20<6:30:30, 3.29s/it]
0%| | 7/7135 [00:24<6:44:06, 3.40s/it]
0%| | 8/7135 [00:27<6:35:14, 3.33s/it]
0%|▏ | 9/7135 [00:30<6:21:14, 3.21s/it]
0%|▏ | 10/7135 [00:33<6:26:17, 3.25s/it]
{'loss': 1.6315, 'grad_norm': 58.0, 'learning_rate': 4.5000000000000003e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 38.56, 'tokens_per_second_per_gpu': 385.89, 'epoch': 0.01}
0%|▏ | 10/7135 [00:33<6:26:17, 3.25s/it]
0%|▏ | 11/7135 [00:36<6:35:28, 3.33s/it]
0%|▏ | 12/7135 [00:40<6:26:50, 3.26s/it]
0%|▏ | 13/7135 [00:43<6:32:36, 3.31s/it]
0%|▏ | 14/7135 [00:46<6:08:39, 3.11s/it]
0%|▏ | 15/7135 [00:49<6:02:24, 3.05s/it]
0%|▏ | 16/7135 [00:52<6:18:03, 3.19s/it]
0%|▏ | 17/7135 [00:55<6:22:47, 3.23s/it]
0%|▎ | 18/7135 [00:58<6:08:57, 3.11s/it]
0%|▎ | 19/7135 [01:01<5:55:05, 2.99s/it]
0%|▎ | 20/7135 [01:04<6:03:45, 3.07s/it]
{'loss': 1.5819, 'grad_norm': 66.5, 'learning_rate': 9.500000000000001e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 38.58, 'tokens_per_second_per_gpu': 423.85, 'epoch': 0.03}
0%|▎ | 20/7135 [01:04<6:03:45, 3.07s/it]
0%|▎ | 21/7135 [01:08<6:14:12, 3.16s/it]
0%|▎ | 22/7135 [01:10<6:05:45, 3.09s/it]
0%|▎ | 23/7135 [01:13<6:00:46, 3.04s/it]
0%|▎ | 24/7135 [01:17<6:05:50, 3.09s/it]
0%|▎ | 25/7135 [01:19<5:55:23, 3.00s/it]
0%|▎ | 26/7135 [01:23<6:15:45, 3.17s/it]
0%|▍ | 27/7135 [01:26<6:07:57, 3.11s/it]
0%|▍ | 28/7135 [01:29<5:55:25, 3.00s/it]
0%|▍ | 29/7135 [01:32<5:50:37, 2.96s/it]
0%|▍ | 30/7135 [01:35<5:57:49, 3.02s/it]
{'loss': 1.4061, 'grad_norm': 33.0, 'learning_rate': 1.45e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 38.58, 'tokens_per_second_per_gpu': 403.97, 'epoch': 0.04}
0%|▍ | 30/7135 [01:35<5:57:49, 3.02s/it]
0%|▍ | 31/7135 [01:38<5:54:00, 2.99s/it]
0%|▍ | 32/7135 [01:41<6:08:37, 3.11s/it]
0%|▍ | 33/7135 [01:44<5:52:38, 2.98s/it]
0%|▍ | 34/7135 [01:48<6:25:19, 3.26s/it]
0%|▌ | 35/7135 [01:52<6:51:35, 3.48s/it]
1%|▌ | 36/7135 [01:55<6:46:35, 3.44s/it]
1%|▌ | 37/7135 [01:58<6:32:58, 3.32s/it]
1%|▌ | 38/7135 [02:01<6:25:56, 3.26s/it]
1%|▌ | 39/7135 [02:04<6:29:05, 3.29s/it]
1%|▌ | 40/7135 [02:07<6:18:10, 3.20s/it]
{'loss': 1.2537, 'grad_norm': 29.5, 'learning_rate': 1.9500000000000004e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 435.63, 'epoch': 0.06}
1%|▌ | 40/7135 [02:07<6:18:10, 3.20s/it]
1%|▌ | 41/7135 [02:11<6:26:35, 3.27s/it]
1%|▌ | 42/7135 [02:14<6:27:35, 3.28s/it]
1%|▌ | 43/7135 [02:17<6:15:10, 3.17s/it]
1%|▋ | 44/7135 [02:20<6:14:30, 3.17s/it]
1%|▋ | 45/7135 [02:24<6:29:54, 3.30s/it]
1%|▋ | 46/7135 [02:27<6:30:42, 3.31s/it]
1%|▋ | 47/7135 [02:30<6:17:26, 3.20s/it]
1%|▋ | 48/7135 [02:33<6:21:54, 3.23s/it]
1%|▋ | 49/7135 [02:36<5:56:52, 3.02s/it]
1%|▋ | 50/7135 [02:39<5:56:18, 3.02s/it]
{'loss': 0.9004, 'grad_norm': 10.375, 'learning_rate': 2.4500000000000003e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 443.28, 'epoch': 0.07}
1%|▋ | 50/7135 [02:39<5:56:18, 3.02s/it]
1%|▋ | 51/7135 [02:42<6:02:24, 3.07s/it]
1%|▋ | 52/7135 [02:46<6:13:38, 3.17s/it]
1%|▊ | 53/7135 [02:49<6:34:34, 3.34s/it]
1%|▊ | 54/7135 [02:53<6:44:41, 3.43s/it]
1%|▊ | 55/7135 [02:57<6:50:59, 3.48s/it]
1%|▊ | 56/7135 [03:00<6:36:27, 3.36s/it]
1%|▊ | 57/7135 [03:03<6:20:24, 3.22s/it]
1%|▊ | 58/7135 [03:06<6:37:19, 3.37s/it]
1%|▊ | 59/7135 [03:09<6:30:43, 3.31s/it]
1%|▊ | 60/7135 [03:12<6:20:15, 3.22s/it]
{'loss': 0.897, 'grad_norm': 11.875, 'learning_rate': 2.95e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 398.22, 'epoch': 0.08}
1%|▊ | 60/7135 [03:12<6:20:15, 3.22s/it]
1%|▊ | 61/7135 [03:16<6:28:54, 3.30s/it]
1%|▉ | 62/7135 [03:19<6:17:21, 3.20s/it]
1%|▉ | 63/7135 [03:22<6:02:45, 3.08s/it]
1%|▉ | 64/7135 [03:25<6:03:52, 3.09s/it]
1%|▉ | 65/7135 [03:28<6:17:01, 3.20s/it]
1%|▉ | 66/7135 [03:31<6:13:35, 3.17s/it]
1%|▉ | 67/7135 [03:35<6:13:17, 3.17s/it]
1%|▉ | 68/7135 [03:38<6:21:22, 3.24s/it]
1%|▉ | 69/7135 [03:41<6:22:53, 3.25s/it]
1%|█ | 70/7135 [03:44<6:09:49, 3.14s/it]
{'loss': 0.8869, 'grad_norm': 8.25, 'learning_rate': 3.45e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 414.68, 'epoch': 0.1}
1%|█ | 70/7135 [03:44<6:09:49, 3.14s/it]
1%|█ | 71/7135 [03:47<6:00:02, 3.06s/it]
1%|█ | 72/7135 [03:50<6:07:39, 3.12s/it]
1%|█ | 73/7135 [03:53<5:57:06, 3.03s/it]
1%|█ | 74/7135 [03:57<6:16:19, 3.20s/it]
1%|█ | 75/7135 [04:00<6:15:17, 3.19s/it]
1%|█ | 76/7135 [04:03<6:01:42, 3.07s/it]
1%|█ | 77/7135 [04:06<6:17:49, 3.21s/it]
1%|█ | 78/7135 [04:09<6:00:42, 3.07s/it]
1%|█▏ | 79/7135 [04:11<5:43:38, 2.92s/it]
1%|█▏ | 80/7135 [04:15<5:56:36, 3.03s/it]
{'loss': 0.8004, 'grad_norm': 5.75, 'learning_rate': 3.95e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 351.2, 'epoch': 0.11}
1%|█▏ | 80/7135 [04:15<5:56:36, 3.03s/it]
1%|█▏ | 81/7135 [04:18<5:55:39, 3.03s/it]
1%|█▏ | 82/7135 [04:21<5:49:39, 2.97s/it]
1%|█▏ | 83/7135 [04:24<5:59:57, 3.06s/it]
1%|█▏ | 84/7135 [04:27<6:08:04, 3.13s/it]
1%|█▏ | 85/7135 [04:30<5:58:18, 3.05s/it]
1%|█▏ | 86/7135 [04:33<6:06:38, 3.12s/it]
1%|█▏ | 87/7135 [04:37<6:37:41, 3.39s/it]
1%|█▎ | 88/7135 [04:40<6:27:18, 3.30s/it]
1%|█▎ | 89/7135 [04:44<6:20:58, 3.24s/it]
1%|█▎ | 90/7135 [04:47<6:20:01, 3.24s/it]
{'loss': 1.0291, 'grad_norm': 6.90625, 'learning_rate': 4.450000000000001e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 402.57, 'epoch': 0.13}
1%|█▎ | 90/7135 [04:47<6:20:01, 3.24s/it]
1%|█▎ | 91/7135 [04:50<6:16:35, 3.21s/it]
1%|█▎ | 92/7135 [04:53<6:17:15, 3.21s/it]
1%|█▎ | 93/7135 [04:56<6:13:26, 3.18s/it]
1%|█▎ | 94/7135 [04:59<6:15:35, 3.20s/it]
1%|█▎ | 95/7135 [05:02<5:59:21, 3.06s/it]
1%|█▎ | 96/7135 [05:05<5:49:49, 2.98s/it]
1%|█▍ | 97/7135 [05:08<5:55:42, 3.03s/it]
1%|█▍ | 98/7135 [05:12<6:21:28, 3.25s/it]
1%|█▍ | 99/7135 [05:15<6:21:01, 3.25s/it]
1%|█▍ | 100/7135 [05:18<6:16:29, 3.21s/it]
{'loss': 0.7634, 'grad_norm': 4.4375, 'learning_rate': 4.95e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 347.06, 'epoch': 0.14}
1%|█▍ | 100/7135 [05:18<6:16:29, 3.21s/it]
1%|█▍ | 101/7135 [05:22<6:19:50, 3.24s/it]
1%|█▍ | 102/7135 [05:25<6:23:14, 3.27s/it]
1%|█▍ | 103/7135 [05:28<6:10:49, 3.16s/it]
1%|█▍ | 104/7135 [05:31<6:17:46, 3.22s/it]
1%|█▍ | 105/7135 [05:34<6:14:50, 3.20s/it]
1%|█▌ | 106/7135 [05:37<6:08:08, 3.14s/it]
1%|█▌ | 107/7135 [05:40<5:58:56, 3.06s/it]
2%|█▌ | 108/7135 [05:44<6:08:36, 3.15s/it]
2%|█▌ | 109/7135 [05:47<6:16:11, 3.21s/it]
2%|█▌ | 110/7135 [05:50<6:21:08, 3.26s/it]
{'loss': 0.8265, 'grad_norm': 8.0625, 'learning_rate': 4.99997980862061e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 345.76, 'epoch': 0.15}
2%|█▌ | 110/7135 [05:50<6:21:08, 3.26s/it]
2%|█▌ | 111/7135 [05:53<6:09:40, 3.16s/it]
2%|█▌ | 112/7135 [05:56<6:04:20, 3.11s/it]
2%|█▌ | 113/7135 [05:59<6:08:52, 3.15s/it]
2%|█▌ | 114/7135 [06:03<6:08:04, 3.15s/it]
2%|█▋ | 115/7135 [06:06<6:25:45, 3.30s/it]
2%|█▋ | 116/7135 [06:09<6:13:51, 3.20s/it]
2%|█▋ | 117/7135 [06:12<6:11:51, 3.18s/it]
2%|█▋ | 118/7135 [06:16<6:19:03, 3.24s/it]
2%|█▋ | 119/7135 [06:19<6:12:33, 3.19s/it]
2%|█▋ | 120/7135 [06:22<6:06:32, 3.14s/it]
{'loss': 0.7705, 'grad_norm': 4.1875, 'learning_rate': 4.999910011678486e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 413.99, 'epoch': 0.17}
2%|█▋ | 120/7135 [06:22<6:06:32, 3.14s/it]
2%|█▋ | 121/7135 [06:25<6:17:52, 3.23s/it]
2%|█▋ | 122/7135 [06:28<6:11:18, 3.18s/it]
2%|█▋ | 123/7135 [06:32<6:22:30, 3.27s/it]
2%|█▊ | 124/7135 [06:35<6:09:24, 3.16s/it]
2%|█▊ | 125/7135 [06:38<5:57:20, 3.06s/it]
2%|█▊ | 126/7135 [06:41<6:05:59, 3.13s/it]
2%|█▊ | 127/7135 [06:44<6:00:36, 3.09s/it]
2%|█▊ | 128/7135 [06:47<5:50:31, 3.00s/it]
2%|█▊ | 129/7135 [06:50<5:48:25, 2.98s/it]
2%|█▊ | 130/7135 [06:53<6:08:06, 3.15s/it]
{'loss': 0.7998, 'grad_norm': 6.15625, 'learning_rate': 4.999790361288907e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 300.49, 'epoch': 0.18}
2%|█▊ | 130/7135 [06:53<6:08:06, 3.15s/it]
2%|█▊ | 131/7135 [06:56<6:00:41, 3.09s/it]
2%|█▊ | 132/7135 [07:00<6:24:44, 3.30s/it]
2%|█▉ | 133/7135 [07:03<6:23:14, 3.28s/it]
2%|█▉ | 134/7135 [07:06<6:19:20, 3.25s/it]
2%|█▉ | 135/7135 [07:09<6:09:58, 3.17s/it]
2%|█▉ | 136/7135 [07:13<6:21:44, 3.27s/it]
2%|█▉ | 137/7135 [07:16<6:21:37, 3.27s/it]
2%|█▉ | 138/7135 [07:19<6:18:18, 3.24s/it]
2%|█▉ | 139/7135 [07:23<6:21:12, 3.27s/it]
2%|█▉ | 140/7135 [07:26<6:19:38, 3.26s/it]
{'loss': 0.7607, 'grad_norm': 6.53125, 'learning_rate': 4.999620859837952e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 366.68, 'epoch': 0.2}
2%|█▉ | 140/7135 [07:26<6:19:38, 3.26s/it]
2%|█▉ | 141/7135 [07:29<6:12:33, 3.20s/it]
2%|██ | 142/7135 [07:32<5:56:38, 3.06s/it]
2%|██ | 143/7135 [07:34<5:47:40, 2.98s/it]
2%|██ | 144/7135 [07:38<5:59:14, 3.08s/it]
2%|██ | 145/7135 [07:41<6:13:23, 3.21s/it]
2%|██ | 146/7135 [07:45<6:22:34, 3.28s/it]
2%|██ | 147/7135 [07:48<6:19:37, 3.26s/it]
2%|██ | 148/7135 [07:51<6:08:57, 3.17s/it]
2%|██ | 149/7135 [07:54<6:01:22, 3.10s/it]
2%|██ | 150/7135 [07:57<6:05:24, 3.14s/it]
{'loss': 0.9012, 'grad_norm': 4.5625, 'learning_rate': 4.999401510705834e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 382.48, 'epoch': 0.21}
2%|██ | 150/7135 [07:57<6:05:24, 3.14s/it]
2%|██▏ | 151/7135 [08:00<6:06:14, 3.15s/it]
2%|██▏ | 152/7135 [08:03<5:58:25, 3.08s/it]
2%|██▏ | 153/7135 [08:06<6:05:11, 3.14s/it]
2%|██▏ | 154/7135 [08:10<6:16:16, 3.23s/it]
2%|██▏ | 155/7135 [08:13<6:08:54, 3.17s/it]
2%|██▏ | 156/7135 [08:16<5:57:33, 3.07s/it]
2%|██▏ | 157/7135 [08:19<6:07:54, 3.16s/it]
2%|██▏ | 158/7135 [08:22<5:50:48, 3.02s/it]
2%|██▎ | 159/7135 [08:25<6:13:29, 3.21s/it]
2%|██▎ | 160/7135 [08:29<6:18:59, 3.26s/it]
{'loss': 0.8278, 'grad_norm': 5.6875, 'learning_rate': 4.999132318266835e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 360.71, 'epoch': 0.22}
2%|██▎ | 160/7135 [08:29<6:18:59, 3.26s/it]
2%|██▎ | 161/7135 [08:32<6:04:25, 3.14s/it]
2%|██▎ | 162/7135 [08:35<6:16:29, 3.24s/it]
2%|██▎ | 163/7135 [08:39<6:36:00, 3.41s/it]
2%|██▎ | 164/7135 [08:42<6:26:54, 3.33s/it]
2%|██▎ | 165/7135 [08:45<6:23:35, 3.30s/it]
2%|██▎ | 166/7135 [08:48<6:04:04, 3.13s/it]
2%|██▎ | 167/7135 [08:51<5:54:42, 3.05s/it]
2%|██▍ | 168/7135 [08:54<5:55:36, 3.06s/it]
2%|██▍ | 169/7135 [08:57<5:58:47, 3.09s/it]
2%|██▍ | 170/7135 [09:00<5:51:45, 3.03s/it]
{'loss': 0.819, 'grad_norm': 5.96875, 'learning_rate': 4.998813287889218e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 362.19, 'epoch': 0.24}
2%|██▍ | 170/7135 [09:00<5:51:45, 3.03s/it]
2%|██▍ | 171/7135 [09:03<5:52:07, 3.03s/it]
2%|██▍ | 172/7135 [09:07<6:14:28, 3.23s/it]
2%|██▍ | 173/7135 [09:10<6:27:15, 3.34s/it]
2%|██▍ | 174/7135 [09:14<6:34:00, 3.40s/it]
2%|██▍ | 175/7135 [09:17<6:25:47, 3.33s/it]
2%|██▍ | 176/7135 [09:20<6:04:35, 3.14s/it]
2%|██▌ | 177/7135 [09:23<6:12:42, 3.21s/it]
2%|██▌ | 178/7135 [09:26<6:03:26, 3.13s/it]
3%|██▌ | 179/7135 [09:29<6:09:56, 3.19s/it]
3%|██▌ | 180/7135 [09:34<6:48:23, 3.52s/it]
{'loss': 0.9741, 'grad_norm': 3.359375, 'learning_rate': 4.998444425935116e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 394.37, 'epoch': 0.25}
3%|██▌ | 180/7135 [09:34<6:48:23, 3.52s/it]
3%|██▌ | 181/7135 [09:37<6:32:33, 3.39s/it]
3%|██▌ | 182/7135 [09:40<6:35:30, 3.41s/it]
3%|██▌ | 183/7135 [09:43<6:21:31, 3.29s/it]
3%|██▌ | 184/7135 [09:47<6:32:06, 3.38s/it]
3%|██▌ | 185/7135 [09:51<6:45:35, 3.50s/it]
3%|██▋ | 186/7135 [09:54<6:36:53, 3.43s/it]
3%|██▋ | 187/7135 [09:57<6:34:12, 3.40s/it]
3%|██▋ | 188/7135 [10:00<6:19:45, 3.28s/it]
3%|██▋ | 189/7135 [10:03<6:04:47, 3.15s/it]
3%|██▋ | 190/7135 [10:06<6:04:21, 3.15s/it]
{'loss': 0.8125, 'grad_norm': 5.03125, 'learning_rate': 4.998025739760412e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 372.8, 'epoch': 0.27}
3%|██▋ | 190/7135 [10:06<6:04:21, 3.15s/it]
3%|██▋ | 191/7135 [10:09<5:57:12, 3.09s/it]
3%|██▋ | 192/7135 [10:12<5:52:18, 3.04s/it]
3%|██▋ | 193/7135 [10:15<5:58:09, 3.10s/it]
3%|██▋ | 194/7135 [10:19<6:17:59, 3.27s/it]
3%|██▊ | 195/7135 [10:22<6:14:05, 3.23s/it]
3%|██▊ | 196/7135 [10:25<6:06:29, 3.17s/it]
3%|██▊ | 197/7135 [10:29<6:35:30, 3.42s/it]
3%|██▊ | 198/7135 [10:32<6:18:29, 3.27s/it]
3%|██▊ | 199/7135 [10:35<6:04:07, 3.15s/it]
3%|██▊ | 200/7135 [10:38<5:53:48, 3.06s/it]
{'loss': 0.9025, 'grad_norm': 5.375, 'learning_rate': 4.997557237714584e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 436.89, 'epoch': 0.28}
3%|██▊ | 200/7135 [10:38<5:53:48, 3.06s/it]
3%|██▊ | 201/7135 [10:41<5:55:37, 3.08s/it]
3%|██▊ | 202/7135 [10:44<5:50:19, 3.03s/it]
3%|██▊ | 203/7135 [10:47<5:45:34, 2.99s/it]
3%|██▉ | 204/7135 [10:50<5:48:08, 3.01s/it]
3%|██▉ | 205/7135 [10:53<5:50:47, 3.04s/it]
3%|██▉ | 206/7135 [10:56<5:45:43, 2.99s/it]
3%|██▉ | 207/7135 [10:59<5:55:52, 3.08s/it]
3%|██▉ | 208/7135 [11:02<5:47:35, 3.01s/it]
3%|██▉ | 209/7135 [11:05<5:53:31, 3.06s/it]
3%|██▉ | 210/7135 [11:08<5:43:50, 2.98s/it]
{'loss': 0.8003, 'grad_norm': 4.96875, 'learning_rate': 4.997038929140546e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 408.06, 'epoch': 0.29}
3%|██▉ | 210/7135 [11:08<5:43:50, 2.98s/it]
3%|██▉ | 211/7135 [11:11<5:46:25, 3.00s/it]
3%|███ | 212/7135 [11:14<5:56:19, 3.09s/it]
3%|███ | 213/7135 [11:17<5:47:42, 3.01s/it]
3%|███ | 214/7135 [11:20<5:43:29, 2.98s/it]
3%|███ | 215/7135 [11:24<6:29:42, 3.38s/it]
3%|███ | 216/7135 [11:28<6:47:36, 3.53s/it]
3%|███ | 217/7135 [11:31<6:33:27, 3.41s/it]
3%|███ | 218/7135 [11:35<6:33:20, 3.41s/it]
3%|███ | 219/7135 [11:38<6:22:29, 3.32s/it]
3%|███ | 220/7135 [11:41<6:09:27, 3.21s/it]
{'loss': 0.9031, 'grad_norm': 3.9375, 'learning_rate': 4.996470824374458e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 467.08, 'epoch': 0.31}
3%|███ | 220/7135 [11:41<6:09:27, 3.21s/it]
3%|███▏ | 221/7135 [11:44<5:56:39, 3.10s/it]
3%|███▏ | 222/7135 [11:47<5:51:07, 3.05s/it]
3%|███▏ | 223/7135 [11:50<5:57:22, 3.10s/it]
3%|███▏ | 224/7135 [11:53<6:02:11, 3.14s/it]
3%|███▏ | 225/7135 [11:56<5:58:25, 3.11s/it]
3%|███▏ | 226/7135 [11:59<6:04:04, 3.16s/it]
3%|███▏ | 227/7135 [12:03<6:04:21, 3.16s/it]
3%|███▏ | 228/7135 [12:05<5:57:43, 3.11s/it]
3%|███▏ | 229/7135 [12:09<6:09:00, 3.21s/it]
3%|███▎ | 230/7135 [12:12<6:07:20, 3.19s/it]
{'loss': 0.9026, 'grad_norm': 5.6875, 'learning_rate': 4.995852934745522e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 405.26, 'epoch': 0.32}
3%|███▎ | 230/7135 [12:12<6:07:20, 3.19s/it]
3%|███▎ | 231/7135 [12:15<6:04:20, 3.17s/it]
3%|███▎ | 232/7135 [12:19<6:18:25, 3.29s/it]
3%|███▎ | 233/7135 [12:22<6:33:42, 3.42s/it]
3%|███▎ | 234/7135 [12:26<6:37:36, 3.46s/it]
3%|███▎ | 235/7135 [12:30<6:48:06, 3.55s/it]
3%|███▎ | 236/7135 [12:33<6:49:34, 3.56s/it]
3%|███▎ | 237/7135 [12:36<6:31:51, 3.41s/it]
3%|███▎ | 238/7135 [12:40<6:21:28, 3.32s/it]
3%|███▍ | 239/7135 [12:43<6:26:32, 3.36s/it]
3%|███▍ | 240/7135 [12:46<6:05:01, 3.18s/it]
{'loss': 0.7622, 'grad_norm': 3.515625, 'learning_rate': 4.995185272575749e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 502.29, 'epoch': 0.34}
3%|███▍ | 240/7135 [12:46<6:05:01, 3.18s/it]
3%|███▍ | 241/7135 [12:49<6:01:58, 3.15s/it]
3%|███▍ | 242/7135 [12:52<6:12:20, 3.24s/it]
3%|███▍ | 243/7135 [12:56<6:17:36, 3.29s/it]
3%|███▍ | 244/7135 [12:59<6:09:41, 3.22s/it]
3%|███▍ | 245/7135 [13:02<6:00:45, 3.14s/it]
3%|███▍ | 246/7135 [13:04<5:44:11, 3.00s/it]
3%|███▍ | 247/7135 [13:08<5:51:28, 3.06s/it]
3%|███▌ | 248/7135 [13:11<6:19:03, 3.30s/it]
3%|███▌ | 249/7135 [13:14<6:07:49, 3.20s/it]
4%|███▌ | 250/7135 [13:18<6:12:43, 3.25s/it]
{'loss': 0.7486, 'grad_norm': 7.40625, 'learning_rate': 4.994467851179725e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 347.89, 'epoch': 0.35}
4%|███▌ | 250/7135 [13:18<6:12:43, 3.25s/it]
4%|███▌ | 251/7135 [13:21<6:16:53, 3.28s/it]
4%|███▌ | 252/7135 [13:25<6:43:49, 3.52s/it]
4%|███▌ | 253/7135 [13:28<6:35:49, 3.45s/it]
4%|███▌ | 254/7135 [13:32<6:32:29, 3.42s/it]
4%|███▌ | 255/7135 [13:35<6:09:43, 3.22s/it]
4%|███▌ | 256/7135 [13:38<6:03:26, 3.17s/it]
4%|███▋ | 257/7135 [13:41<5:52:21, 3.07s/it]
4%|███▋ | 258/7135 [13:44<6:07:21, 3.21s/it]
4%|███▋ | 259/7135 [13:47<5:55:05, 3.10s/it]
4%|███▋ | 260/7135 [13:50<5:47:32, 3.03s/it]
{'loss': 0.838, 'grad_norm': 5.53125, 'learning_rate': 4.993700684864336e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 456.67, 'epoch': 0.36}
4%|███▋ | 260/7135 [13:50<5:47:32, 3.03s/it]
4%|███▋ | 261/7135 [13:53<5:53:16, 3.08s/it]
4%|███▋ | 262/7135 [13:56<6:00:32, 3.15s/it]
4%|███▋ | 263/7135 [13:59<5:59:06, 3.14s/it]
4%|███▋ | 264/7135 [14:03<6:04:19, 3.18s/it]
4%|███▊ | 265/7135 [14:07<6:34:38, 3.45s/it]
4%|███▊ | 266/7135 [14:10<6:18:27, 3.31s/it]
4%|███▊ | 267/7135 [14:12<6:01:00, 3.15s/it]
4%|███▊ | 268/7135 [14:15<5:54:00, 3.09s/it]
4%|███▊ | 269/7135 [14:19<6:07:34, 3.21s/it]
4%|███▊ | 270/7135 [14:22<6:00:24, 3.15s/it]
{'loss': 0.9177, 'grad_norm': 3.796875, 'learning_rate': 4.992883788928487e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 382.47, 'epoch': 0.38}
4%|███▊ | 270/7135 [14:22<6:00:24, 3.15s/it]
4%|███▊ | 271/7135 [14:25<5:50:02, 3.06s/it]
4%|███▊ | 272/7135 [14:28<5:47:57, 3.04s/it]
4%|███▊ | 273/7135 [14:31<5:44:43, 3.01s/it]
4%|███▉ | 274/7135 [14:34<6:00:43, 3.15s/it]
4%|███▉ | 275/7135 [14:38<6:13:13, 3.26s/it]
4%|███▉ | 276/7135 [14:41<6:04:35, 3.19s/it]
4%|███▉ | 277/7135 [14:43<5:48:02, 3.04s/it]
4%|███▉ | 278/7135 [14:46<5:45:39, 3.02s/it]
4%|███▉ | 279/7135 [14:50<5:53:39, 3.09s/it]
4%|███▉ | 280/7135 [14:53<6:12:39, 3.26s/it]
{'loss': 0.8917, 'grad_norm': 3.125, 'learning_rate': 4.992017179662797e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 352.84, 'epoch': 0.39}
4%|███▉ | 280/7135 [14:53<6:12:39, 3.26s/it]
4%|███▉ | 281/7135 [14:56<6:03:08, 3.18s/it]
4%|███▉ | 282/7135 [14:59<6:00:47, 3.16s/it]
4%|████ | 283/7135 [15:03<6:00:47, 3.16s/it]
4%|████ | 284/7135 [15:06<6:05:06, 3.20s/it]
4%|████ | 285/7135 [15:09<5:51:55, 3.08s/it]
4%|████ | 286/7135 [15:12<5:48:11, 3.05s/it]
4%|████ | 287/7135 [15:16<6:23:01, 3.36s/it]
4%|████ | 288/7135 [15:19<6:36:02, 3.47s/it]
4%|████ | 289/7135 [15:23<6:25:54, 3.38s/it]
4%|████ | 290/7135 [15:26<6:11:36, 3.26s/it]
{'loss': 0.9461, 'grad_norm': 5.3125, 'learning_rate': 4.9911008743492714e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 544.76, 'epoch': 0.41}
4%|████ | 290/7135 [15:26<6:11:36, 3.26s/it]
4%|████ | 291/7135 [15:29<5:58:35, 3.14s/it]
4%|████▏ | 292/7135 [15:32<6:01:23, 3.17s/it]
4%|████▏ | 293/7135 [15:35<6:09:50, 3.24s/it]
4%|████▏ | 294/7135 [15:38<6:09:56, 3.24s/it]
4%|████▏ | 295/7135 [15:41<6:01:29, 3.17s/it]
4%|████▏ | 296/7135 [15:45<6:04:59, 3.20s/it]
4%|████▏ | 297/7135 [15:48<6:13:28, 3.28s/it]
4%|████▏ | 298/7135 [15:52<6:19:52, 3.33s/it]
4%|████▏ | 299/7135 [15:55<6:05:47, 3.21s/it]
4%|████▏ | 300/7135 [15:58<6:17:23, 3.31s/it]
{'loss': 0.8306, 'grad_norm': 5.03125, 'learning_rate': 4.9901348912609585e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 345.23, 'epoch': 0.42}
4%|████▏ | 300/7135 [15:58<6:17:23, 3.31s/it]
4%|████▎ | 301/7135 [16:01<6:12:29, 3.27s/it]
4%|████▎ | 302/7135 [16:05<6:13:33, 3.28s/it]
4%|████▎ | 303/7135 [16:08<6:08:13, 3.23s/it]
4%|████▎ | 304/7135 [16:11<6:06:16, 3.22s/it]
4%|████▎ | 305/7135 [16:15<6:39:42, 3.51s/it]
4%|████▎ | 306/7135 [16:18<6:25:58, 3.39s/it]
4%|████▎ | 307/7135 [16:21<6:04:19, 3.20s/it]
4%|████▎ | 308/7135 [16:24<6:09:19, 3.25s/it]
4%|████▎ | 309/7135 [16:28<6:31:38, 3.44s/it]
4%|████▍ | 310/7135 [16:31<6:12:51, 3.28s/it]
{'loss': 0.8082, 'grad_norm': 4.625, 'learning_rate': 4.989119249661587e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 429.8, 'epoch': 0.43}
4%|████▍ | 310/7135 [16:31<6:12:51, 3.28s/it]
4%|████▍ | 311/7135 [16:34<6:09:31, 3.25s/it]
4%|████▍ | 312/7135 [16:37<6:07:11, 3.23s/it]
4%|████▍ | 313/7135 [16:41<6:07:29, 3.23s/it]
4%|████▍ | 314/7135 [16:45<6:50:35, 3.61s/it]
4%|████▍ | 315/7135 [16:49<7:13:04, 3.81s/it]
4%|████▍ | 316/7135 [16:53<6:51:06, 3.62s/it]
4%|████▍ | 317/7135 [16:57<7:07:58, 3.77s/it]
4%|████▌ | 318/7135 [17:00<6:54:15, 3.65s/it]
4%|████▌ | 319/7135 [17:03<6:32:50, 3.46s/it]
4%|████▌ | 320/7135 [17:06<6:23:17, 3.37s/it]
{'loss': 0.7094, 'grad_norm': 4.40625, 'learning_rate': 4.988053969805181e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 538.69, 'epoch': 0.45}
4%|████▌ | 320/7135 [17:06<6:23:17, 3.37s/it]
4%|████▌ | 321/7135 [17:09<6:07:56, 3.24s/it]
5%|████▌ | 322/7135 [17:12<5:50:38, 3.09s/it]
5%|████▌ | 323/7135 [17:15<5:55:03, 3.13s/it]
5%|████▌ | 324/7135 [17:18<5:57:29, 3.15s/it]
5%|████▌ | 325/7135 [17:21<5:56:40, 3.14s/it]
5%|████▌ | 326/7135 [17:25<6:08:04, 3.24s/it]
5%|████▋ | 327/7135 [17:28<6:15:55, 3.31s/it]
5%|████▋ | 328/7135 [17:31<5:52:22, 3.11s/it]
5%|████▋ | 329/7135 [17:34<5:34:54, 2.95s/it]
5%|████▋ | 330/7135 [17:37<5:56:25, 3.14s/it]
{'loss': 0.8658, 'grad_norm': 1.9375, 'learning_rate': 4.986939072935653e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 357.87, 'epoch': 0.46}
5%|████▋ | 330/7135 [17:37<5:56:25, 3.14s/it]
5%|████▋ | 331/7135 [17:40<5:50:44, 3.09s/it]
5%|████▋ | 332/7135 [17:43<5:42:36, 3.02s/it]
5%|████▋ | 333/7135 [17:46<5:48:10, 3.07s/it]
5%|████▋ | 334/7135 [17:49<5:40:51, 3.01s/it]
5%|████▋ | 335/7135 [17:52<5:44:34, 3.04s/it]
5%|████▊ | 336/7135 [17:55<5:49:06, 3.08s/it]
5%|████▊ | 337/7135 [17:59<6:06:39, 3.24s/it]
5%|████▊ | 338/7135 [18:02<5:58:43, 3.17s/it]
5%|████▊ | 339/7135 [18:05<5:57:48, 3.16s/it]
5%|████▊ | 340/7135 [18:09<6:26:46, 3.42s/it]
{'loss': 1.0454, 'grad_norm': 3.8125, 'learning_rate': 4.985774581286386e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 338.8, 'epoch': 0.48}
5%|████▊ | 340/7135 [18:09<6:26:46, 3.42s/it]
5%|████▊ | 341/7135 [18:12<6:18:03, 3.34s/it]
5%|████▊ | 342/7135 [18:16<6:22:33, 3.38s/it]
5%|████▊ | 343/7135 [18:19<6:33:17, 3.47s/it]
5%|████▊ | 344/7135 [18:23<6:21:30, 3.37s/it]
5%|████▉ | 345/7135 [18:26<6:08:55, 3.26s/it]
5%|████▉ | 346/7135 [18:29<6:16:02, 3.32s/it]
5%|████▉ | 347/7135 [18:32<6:04:43, 3.22s/it]
5%|████▉ | 348/7135 [18:35<5:59:36, 3.18s/it]
5%|████▉ | 349/7135 [18:38<6:02:37, 3.21s/it]
5%|████▉ | 350/7135 [18:41<5:44:06, 3.04s/it]
{'loss': 0.7805, 'grad_norm': 3.9375, 'learning_rate': 4.984560518079783e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 421.85, 'epoch': 0.49}
5%|████▉ | 350/7135 [18:41<5:44:06, 3.04s/it]
5%|████▉ | 351/7135 [18:45<6:03:48, 3.22s/it]
5%|████▉ | 352/7135 [18:48<6:11:56, 3.29s/it]
5%|████▉ | 353/7135 [18:51<6:07:10, 3.25s/it]
5%|█████ | 354/7135 [18:54<6:01:46, 3.20s/it]
5%|█████ | 355/7135 [18:58<5:58:40, 3.17s/it]
5%|█████ | 356/7135 [19:01<5:59:10, 3.18s/it]
5%|█████ | 357/7135 [19:04<5:51:32, 3.11s/it]
5%|█████ | 358/7135 [19:07<6:00:23, 3.19s/it]
5%|█████ | 359/7135 [19:10<6:08:41, 3.26s/it]
5%|█████ | 360/7135 [19:14<6:09:07, 3.27s/it]
{'loss': 0.8953, 'grad_norm': 4.0625, 'learning_rate': 4.983296907526811e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 351.21, 'epoch': 0.5}
5%|█████ | 360/7135 [19:14<6:09:07, 3.27s/it]
5%|█████ | 361/7135 [19:17<5:54:57, 3.14s/it]
5%|█████ | 362/7135 [19:20<5:59:34, 3.19s/it]
5%|█████▏ | 363/7135 [19:23<6:01:30, 3.20s/it]
5%|█████▏ | 364/7135 [19:26<5:59:49, 3.19s/it]
5%|█████▏ | 365/7135 [19:30<6:15:13, 3.33s/it]
5%|█████▏ | 366/7135 [19:33<6:15:07, 3.33s/it]
5%|█████▏ | 367/7135 [19:36<6:10:23, 3.28s/it]
5%|█████▏ | 368/7135 [19:39<6:01:07, 3.20s/it]
5%|█████▏ | 369/7135 [19:43<6:09:24, 3.28s/it]
5%|█████▏ | 370/7135 [19:46<6:04:24, 3.23s/it]
{'loss': 0.8898, 'grad_norm': 4.875, 'learning_rate': 4.981983774826516e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 358.77, 'epoch': 0.52}
5%|█████▏ | 370/7135 [19:46<6:04:24, 3.23s/it]
5%|█████▎ | 371/7135 [19:49<5:58:47, 3.18s/it]
5%|█████▎ | 372/7135 [19:52<6:00:25, 3.20s/it]
5%|█████▎ | 373/7135 [19:55<5:57:11, 3.17s/it]
5%|█████▎ | 374/7135 [19:58<5:41:41, 3.03s/it]
5%|█████▎ | 375/7135 [20:01<5:28:55, 2.92s/it]
5%|█████▎ | 376/7135 [20:04<5:47:42, 3.09s/it]
5%|█████▎ | 377/7135 [20:07<5:40:33, 3.02s/it]
5%|█████▎ | 378/7135 [20:10<5:38:40, 3.01s/it]
5%|█████▎ | 379/7135 [20:13<5:47:05, 3.08s/it]
5%|█████▍ | 380/7135 [20:17<5:53:57, 3.14s/it]
{'loss': 0.779, 'grad_norm': 4.0625, 'learning_rate': 4.980621146165514e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 375.02, 'epoch': 0.53}
5%|█████▍ | 380/7135 [20:17<5:53:57, 3.14s/it]
5%|█████▍ | 381/7135 [20:20<6:01:48, 3.21s/it]
5%|█████▍ | 382/7135 [20:23<5:49:34, 3.11s/it]
5%|█████▍ | 383/7135 [20:26<5:44:55, 3.07s/it]
5%|█████▍ | 384/7135 [20:29<5:48:26, 3.10s/it]
5%|█████▍ | 385/7135 [20:32<5:53:49, 3.15s/it]
5%|█████▍ | 386/7135 [20:36<5:59:42, 3.20s/it]
5%|█████▍ | 387/7135 [20:39<5:49:48, 3.11s/it]
5%|█████▍ | 388/7135 [20:42<5:59:55, 3.20s/it]
5%|█████▌ | 389/7135 [20:45<5:56:14, 3.17s/it]
5%|█████▌ | 390/7135 [20:48<5:47:45, 3.09s/it]
{'loss': 0.8148, 'grad_norm': 6.71875, 'learning_rate': 4.97920904871748e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 399.36, 'epoch': 0.55}
5%|█████▌ | 390/7135 [20:48<5:47:45, 3.09s/it]
5%|█████▌ | 391/7135 [20:51<5:59:41, 3.20s/it]
5%|█████▌ | 392/7135 [20:55<6:22:16, 3.40s/it]
6%|█████▌ | 393/7135 [20:58<6:14:03, 3.33s/it]
6%|█████▌ | 394/7135 [21:02<6:17:04, 3.36s/it]
6%|█████▌ | 395/7135 [21:05<6:14:59, 3.34s/it]
6%|█████▌ | 396/7135 [21:09<6:20:22, 3.39s/it]
6%|█████▌ | 397/7135 [21:12<6:13:21, 3.32s/it]
6%|█████▋ | 398/7135 [21:15<6:11:10, 3.31s/it]
6%|█████▋ | 399/7135 [21:18<5:58:24, 3.19s/it]
6%|█████▋ | 400/7135 [21:21<5:39:43, 3.03s/it]
{'loss': 1.0806, 'grad_norm': 5.59375, 'learning_rate': 4.977747510642597e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 549.15, 'epoch': 0.56}
6%|█████▋ | 400/7135 [21:21<5:39:43, 3.03s/it]
6%|█████▋ | 401/7135 [21:24<5:38:05, 3.01s/it]
6%|█████▋ | 402/7135 [21:26<5:32:13, 2.96s/it]
6%|█████▋ | 403/7135 [21:30<5:48:34, 3.11s/it]
6%|█████▋ | 404/7135 [21:33<5:43:51, 3.07s/it]
6%|█████▋ | 405/7135 [21:37<6:03:29, 3.24s/it]
6%|█████▋ | 406/7135 [21:39<5:45:48, 3.08s/it]
6%|█████▊ | 407/7135 [21:43<5:50:36, 3.13s/it]
6%|█████▊ | 408/7135 [21:46<5:59:55, 3.21s/it]
6%|█████▊ | 409/7135 [21:49<5:56:03, 3.18s/it]
6%|█████▊ | 410/7135 [21:52<5:56:53, 3.18s/it]
{'loss': 0.764, 'grad_norm': 5.0625, 'learning_rate': 4.976236561086999e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 360.15, 'epoch': 0.57}
6%|█████▊ | 410/7135 [21:52<5:56:53, 3.18s/it]
6%|█████▊ | 411/7135 [21:56<6:16:10, 3.36s/it]
6%|█████▊ | 412/7135 [21:59<6:02:14, 3.23s/it]
6%|█████▊ | 413/7135 [22:02<6:09:50, 3.30s/it]
6%|█████▊ | 414/7135 [22:06<6:11:25, 3.32s/it]
6%|█████▊ | 415/7135 [22:09<6:07:13, 3.28s/it]
6%|█████▉ | 416/7135 [22:12<5:49:38, 3.12s/it]
6%|█████▉ | 417/7135 [22:15<6:10:31, 3.31s/it]
6%|█████▉ | 418/7135 [22:18<5:53:43, 3.16s/it]
6%|█████▉ | 419/7135 [22:21<5:45:12, 3.08s/it]
6%|█████▉ | 420/7135 [22:24<5:45:25, 3.09s/it]
{'loss': 0.8275, 'grad_norm': 4.03125, 'learning_rate': 4.974676230182188e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 386.27, 'epoch': 0.59}
6%|█████▉ | 420/7135 [22:24<5:45:25, 3.09s/it]
6%|█████▉ | 421/7135 [22:28<5:55:06, 3.17s/it]
6%|█████▉ | 422/7135 [22:30<5:38:39, 3.03s/it]
6%|█████▉ | 423/7135 [22:34<6:04:26, 3.26s/it]
6%|██████ | 424/7135 [22:37<5:51:11, 3.14s/it]
6%|██████ | 425/7135 [22:40<5:45:05, 3.09s/it]
6%|██████ | 426/7135 [22:43<5:31:43, 2.97s/it]
6%|██████ | 427/7135 [22:46<5:29:45, 2.95s/it]
6%|██████ | 428/7135 [22:49<5:52:55, 3.16s/it]
6%|██████ | 429/7135 [22:52<5:50:54, 3.14s/it]
6%|██████ | 430/7135 [22:55<5:44:49, 3.09s/it]
{'loss': 0.8131, 'grad_norm': 4.96875, 'learning_rate': 4.973066549044434e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 508.14, 'epoch': 0.6}
6%|██████ | 430/7135 [22:55<5:44:49, 3.09s/it]
6%|██████ | 431/7135 [22:58<5:49:36, 3.13s/it]
6%|██████ | 432/7135 [23:01<5:40:10, 3.05s/it]
6%|██████▏ | 433/7135 [23:04<5:39:04, 3.04s/it]
6%|██████▏ | 434/7135 [23:08<5:48:19, 3.12s/it]
6%|██████▏ | 435/7135 [23:10<5:33:20, 2.99s/it]
6%|██████▏ | 436/7135 [23:15<6:23:07, 3.43s/it]
6%|██████▏ | 437/7135 [23:19<6:35:12, 3.54s/it]
6%|██████▏ | 438/7135 [23:22<6:17:22, 3.38s/it]
6%|██████▏ | 439/7135 [23:25<6:08:25, 3.30s/it]
6%|██████▏ | 440/7135 [23:28<6:06:56, 3.29s/it]
{'loss': 0.8526, 'grad_norm': 4.9375, 'learning_rate': 4.971407549774156e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 470.62, 'epoch': 0.62}
6%|██████▏ | 440/7135 [23:28<6:06:56, 3.29s/it]
6%|██████▏ | 441/7135 [23:32<6:19:14, 3.40s/it]
6%|██████▎ | 442/7135 [23:35<6:27:48, 3.48s/it]
6%|██████▎ | 443/7135 [23:38<6:17:06, 3.38s/it]
6%|██████▎ | 444/7135 [23:43<6:46:42, 3.65s/it]
6%|██████▎ | 445/7135 [23:46<6:23:35, 3.44s/it]
6%|██████▎ | 446/7135 [23:49<6:09:22, 3.31s/it]
6%|██████▎ | 447/7135 [23:52<5:55:35, 3.19s/it]
6%|██████▎ | 448/7135 [23:54<5:42:31, 3.07s/it]
6%|██████▎ | 449/7135 [23:58<5:58:09, 3.21s/it]
6%|██████▎ | 450/7135 [24:01<5:46:14, 3.11s/it]
{'loss': 0.9225, 'grad_norm': 6.15625, 'learning_rate': 4.9696992654552745e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 403.8, 'epoch': 0.63}
6%|██████▎ | 450/7135 [24:01<5:46:14, 3.11s/it]
6%|██████▍ | 451/7135 [24:05<6:22:07, 3.43s/it]
6%|██████▍ | 452/7135 [24:08<6:05:15, 3.28s/it]
6%|██████▍ | 453/7135 [24:12<6:31:28, 3.52s/it]
6%|██████▍ | 454/7135 [24:15<6:09:52, 3.32s/it]
6%|██████▍ | 455/7135 [24:18<6:04:20, 3.27s/it]
6%|██████▍ | 456/7135 [24:21<5:54:39, 3.19s/it]
6%|██████▍ | 457/7135 [24:24<5:50:08, 3.15s/it]
6%|██████▍ | 458/7135 [24:27<5:39:03, 3.05s/it]
6%|██████▍ | 459/7135 [24:30<5:28:26, 2.95s/it]
6%|██████▌ | 460/7135 [24:33<5:30:40, 2.97s/it]
{'loss': 0.7912, 'grad_norm': 4.21875, 'learning_rate': 4.967941730154564e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 469.99, 'epoch': 0.64}
6%|██████▌ | 460/7135 [24:33<5:30:40, 2.97s/it]
6%|██████▌ | 461/7135 [24:36<5:35:25, 3.02s/it]
6%|██████▌ | 462/7135 [24:38<5:26:00, 2.93s/it]
6%|██████▌ | 463/7135 [24:42<5:49:05, 3.14s/it]
7%|██████▌ | 464/7135 [24:46<6:02:33, 3.26s/it]
7%|██████▌ | 465/7135 [24:49<6:03:15, 3.27s/it]
7%|██████▌ | 466/7135 [24:52<6:03:16, 3.27s/it]
7%|██████▌ | 467/7135 [24:55<6:00:25, 3.24s/it]
7%|██████▌ | 468/7135 [24:59<6:11:40, 3.34s/it]
7%|██████▋ | 469/7135 [25:02<6:03:25, 3.27s/it]
7%|██████▋ | 470/7135 [25:05<6:06:14, 3.30s/it]
{'loss': 0.9767, 'grad_norm': 7.65625, 'learning_rate': 4.966134978920961e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 364.7, 'epoch': 0.66}
7%|██████▋ | 470/7135 [25:05<6:06:14, 3.30s/it]
7%|██████▋ | 471/7135 [25:09<6:07:24, 3.31s/it]
7%|██████▋ | 472/7135 [25:12<6:01:57, 3.26s/it]
7%|██████▋ | 473/7135 [25:15<5:54:40, 3.19s/it]
7%|██████▋ | 474/7135 [25:18<6:01:07, 3.25s/it]
7%|██████▋ | 475/7135 [25:22<6:10:08, 3.33s/it]
7%|██████▋ | 476/7135 [25:25<6:11:47, 3.35s/it]
7%|██████▊ | 477/7135 [25:28<5:55:19, 3.20s/it]
7%|██████▊ | 478/7135 [25:31<5:51:43, 3.17s/it]
7%|██████▊ | 479/7135 [25:34<5:39:26, 3.06s/it]
7%|██████▊ | 480/7135 [25:37<5:41:36, 3.08s/it]
{'loss': 0.7741, 'grad_norm': 15.375, 'learning_rate': 4.964279047784876e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 399.13, 'epoch': 0.67}
7%|██████▊ | 480/7135 [25:37<5:41:36, 3.08s/it]
7%|██████▊ | 481/7135 [25:40<5:45:48, 3.12s/it]
7%|██████▊ | 482/7135 [25:43<5:44:47, 3.11s/it]
7%|██████▊ | 483/7135 [25:47<5:50:30, 3.16s/it]
7%|██████▊ | 484/7135 [25:50<5:46:03, 3.12s/it]
7%|██████▊ | 485/7135 [25:53<5:55:20, 3.21s/it]
7%|██████▉ | 486/7135 [25:56<5:49:29, 3.15s/it]
7%|██████▉ | 487/7135 [25:59<5:55:49, 3.21s/it]
7%|██████▉ | 488/7135 [26:02<5:41:48, 3.09s/it]
7%|██████▉ | 489/7135 [26:05<5:45:55, 3.12s/it]
7%|██████▉ | 490/7135 [26:09<5:59:55, 3.25s/it]
{'loss': 0.782, 'grad_norm': 4.40625, 'learning_rate': 4.9623739737574665e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 354.05, 'epoch': 0.69}
7%|██████▉ | 490/7135 [26:09<5:59:55, 3.25s/it]
7%|██████▉ | 491/7135 [26:12<5:52:18, 3.18s/it]
7%|██████▉ | 492/7135 [26:15<5:58:06, 3.23s/it]
7%|██████▉ | 493/7135 [26:18<5:49:00, 3.15s/it]
7%|██████▉ | 494/7135 [26:21<5:47:25, 3.14s/it]
7%|███████ | 495/7135 [26:25<5:52:35, 3.19s/it]
7%|███████ | 496/7135 [26:28<5:40:53, 3.08s/it]
7%|███████ | 497/7135 [26:31<5:44:14, 3.11s/it]
7%|███████ | 498/7135 [26:34<6:00:40, 3.26s/it]
7%|███████ | 499/7135 [26:38<5:59:21, 3.25s/it]
7%|███████ | 500/7135 [26:41<5:54:19, 3.20s/it]
{'loss': 0.793, 'grad_norm': 3.796875, 'learning_rate': 4.960419794829901e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 455.32, 'epoch': 0.7}
7%|███████ | 500/7135 [26:41<5:54:19, 3.20s/it]
7%|███████ | 501/7135 [26:44<5:41:51, 3.09s/it]
7%|███████ | 502/7135 [26:47<5:43:05, 3.10s/it]
7%|███████ | 503/7135 [26:50<5:40:46, 3.08s/it]
7%|███████▏ | 504/7135 [26:53<5:46:40, 3.14s/it]
7%|███████▏ | 505/7135 [26:56<5:45:20, 3.13s/it]
7%|███████▏ | 506/7135 [26:59<5:45:40, 3.13s/it]
7%|███████▏ | 507/7135 [27:02<5:49:49, 3.17s/it]
7%|███████▏ | 508/7135 [27:05<5:34:37, 3.03s/it]
7%|███████▏ | 509/7135 [27:08<5:35:34, 3.04s/it]
7%|███████▏ | 510/7135 [27:11<5:37:58, 3.06s/it]
{'loss': 0.9134, 'grad_norm': 5.5, 'learning_rate': 4.958416549972609e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 416.19, 'epoch': 0.71}
7%|███████▏ | 510/7135 [27:11<5:37:58, 3.06s/it]
7%|███████▏ | 511/7135 [27:14<5:35:19, 3.04s/it]
7%|███████▏ | 512/7135 [27:18<5:47:48, 3.15s/it]
7%|███████▎ | 513/7135 [27:21<5:56:44, 3.23s/it]
7%|███████▎ | 514/7135 [27:24<5:47:54, 3.15s/it]
7%|███████▎ | 515/7135 [27:27<5:34:49, 3.03s/it]
7%|███████▎ | 516/7135 [27:30<5:23:21, 2.93s/it]
7%|███████▎ | 517/7135 [27:33<5:31:33, 3.01s/it]
7%|███████▎ | 518/7135 [27:36<5:27:23, 2.97s/it]
7%|███████▎ | 519/7135 [27:39<5:25:07, 2.95s/it]
7%|███████▎ | 520/7135 [27:41<5:22:31, 2.93s/it]
{'loss': 0.8, 'grad_norm': 4.15625, 'learning_rate': 4.9563642791344896e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 460.23, 'epoch': 0.73}
7%|███████▎ | 520/7135 [27:41<5:22:31, 2.93s/it]
7%|███████▍ | 521/7135 [27:44<5:17:56, 2.88s/it]
7%|███████▍ | 522/7135 [27:47<5:25:29, 2.95s/it]
7%|███████▍ | 523/7135 [27:51<5:40:44, 3.09s/it]
7%|███████▍ | 524/7135 [27:54<5:51:10, 3.19s/it]
7%|███████▍ | 525/7135 [27:57<5:50:15, 3.18s/it]
7%|███████▍ | 526/7135 [28:00<5:45:08, 3.13s/it]
7%|███████▍ | 527/7135 [28:03<5:41:32, 3.10s/it]
7%|███████▍ | 528/7135 [28:06<5:28:56, 2.99s/it]
7%|███████▍ | 529/7135 [28:09<5:34:51, 3.04s/it]
7%|███████▌ | 530/7135 [28:12<5:23:53, 2.94s/it]
{'loss': 0.81, 'grad_norm': 4.65625, 'learning_rate': 4.954263023242128e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 482.08, 'epoch': 0.74}
7%|███████▌ | 530/7135 [28:12<5:23:53, 2.94s/it]
7%|███████▌ | 531/7135 [28:15<5:26:27, 2.97s/it]
7%|███████▌ | 532/7135 [28:18<5:25:56, 2.96s/it]
7%|███████▌ | 533/7135 [28:21<5:29:09, 2.99s/it]
7%|███████▌ | 534/7135 [28:25<5:54:09, 3.22s/it]
7%|███████▌ | 535/7135 [28:28<5:43:51, 3.13s/it]
8%|███████▌ | 536/7135 [28:31<5:41:41, 3.11s/it]
8%|███████▌ | 537/7135 [28:33<5:26:24, 2.97s/it]
8%|███████▌ | 538/7135 [28:36<5:26:30, 2.97s/it]
8%|███████▋ | 539/7135 [28:39<5:32:14, 3.02s/it]
8%|███████▋ | 540/7135 [28:43<5:39:54, 3.09s/it]
{'loss': 0.8547, 'grad_norm': 3.703125, 'learning_rate': 4.952112824198973e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 355.5, 'epoch': 0.76}
8%|███████▋ | 540/7135 [28:43<5:39:54, 3.09s/it]
8%|███████▋ | 541/7135 [28:46<5:48:18, 3.17s/it]
8%|███████▋ | 542/7135 [28:49<5:32:24, 3.03s/it]
8%|███████▋ | 543/7135 [28:52<5:30:43, 3.01s/it]
8%|███████▋ | 544/7135 [28:54<5:21:21, 2.93s/it]
8%|███████▋ | 545/7135 [28:57<5:24:54, 2.96s/it]
8%|███████▋ | 546/7135 [29:01<5:37:06, 3.07s/it]
8%|███████▋ | 547/7135 [29:04<5:29:03, 3.00s/it]
8%|███████▊ | 548/7135 [29:07<5:25:13, 2.96s/it]
8%|███████▊ | 549/7135 [29:10<5:32:13, 3.03s/it]
8%|███████▊ | 550/7135 [29:13<5:39:28, 3.09s/it]
{'loss': 0.6707, 'grad_norm': 4.625, 'learning_rate': 4.9499137248845015e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 313.02, 'epoch': 0.77}
8%|███████▊ | 550/7135 [29:13<5:39:28, 3.09s/it]
8%|███████▊ | 551/7135 [29:16<5:38:47, 3.09s/it]
8%|███████▊ | 552/7135 [29:19<5:26:16, 2.97s/it]
8%|███████▊ | 553/7135 [29:22<5:44:42, 3.14s/it]
8%|███████▊ | 554/7135 [29:25<5:45:22, 3.15s/it]
8%|███████▊ | 555/7135 [29:29<6:05:39, 3.33s/it]
8%|███████▊ | 556/7135 [29:32<5:59:55, 3.28s/it]
8%|███████▉ | 557/7135 [29:36<6:00:50, 3.29s/it]
8%|███████▉ | 558/7135 [29:39<5:57:35, 3.26s/it]
8%|███████▉ | 559/7135 [29:42<5:49:48, 3.19s/it]
8%|███████▉ | 560/7135 [29:45<5:52:30, 3.22s/it]
{'loss': 0.7558, 'grad_norm': 4.625, 'learning_rate': 4.9476657691533645e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 420.88, 'epoch': 0.78}
8%|███████▉ | 560/7135 [29:45<5:52:30, 3.22s/it]
8%|███████▉ | 561/7135 [29:48<5:41:11, 3.11s/it]
8%|███████▉ | 562/7135 [29:53<6:33:50, 3.60s/it]
8%|███████▉ | 563/7135 [29:56<6:24:52, 3.51s/it]
8%|███████▉ | 564/7135 [30:00<6:25:19, 3.52s/it]
8%|███████▉ | 565/7135 [30:03<6:14:00, 3.42s/it]
8%|████████ | 566/7135 [30:06<6:02:16, 3.31s/it]
8%|████████ | 567/7135 [30:09<5:55:07, 3.24s/it]
8%|████████ | 568/7135 [30:12<5:59:29, 3.28s/it]
8%|████████ | 569/7135 [30:16<6:03:58, 3.33s/it]
8%|████████ | 570/7135 [30:19<5:50:06, 3.20s/it]
{'loss': 0.7852, 'grad_norm': 3.671875, 'learning_rate': 4.9453690018345144e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 449.77, 'epoch': 0.8}
8%|████████ | 570/7135 [30:19<5:50:06, 3.20s/it]
8%|████████ | 571/7135 [30:22<5:55:33, 3.25s/it]
8%|████████ | 572/7135 [30:25<5:43:54, 3.14s/it]
8%|████████ | 573/7135 [30:29<6:06:36, 3.35s/it]
8%|████████▏ | 574/7135 [30:32<5:54:47, 3.24s/it]
8%|████████▏ | 575/7135 [30:36<6:11:28, 3.40s/it]
8%|████████▏ | 576/7135 [30:39<6:15:39, 3.44s/it]
8%|████████▏ | 577/7135 [30:42<6:16:02, 3.44s/it]
8%|████████▏ | 578/7135 [30:46<6:04:07, 3.33s/it]
8%|████████▏ | 579/7135 [30:49<6:03:25, 3.33s/it]
8%|████████▏ | 580/7135 [30:52<6:11:11, 3.40s/it]
{'loss': 0.8482, 'grad_norm': 3.125, 'learning_rate': 4.943023468730306e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 350.21, 'epoch': 0.81}
8%|████████▏ | 580/7135 [30:52<6:11:11, 3.40s/it]
8%|████████▏ | 581/7135 [30:56<6:09:02, 3.38s/it]
8%|████████▏ | 582/7135 [30:59<6:05:25, 3.35s/it]
8%|████████▎ | 583/7135 [31:03<6:16:02, 3.44s/it]
8%|████████▎ | 584/7135 [31:06<6:20:32, 3.49s/it]
8%|████████▎ | 585/7135 [31:09<5:56:53, 3.27s/it]
8%|████████▎ | 586/7135 [31:12<5:52:45, 3.23s/it]
8%|████████▎ | 587/7135 [31:15<5:48:21, 3.19s/it]
8%|████████▎ | 588/7135 [31:18<5:45:04, 3.16s/it]
8%|████████▎ | 589/7135 [31:22<5:47:06, 3.18s/it]
8%|████████▎ | 590/7135 [31:25<5:39:20, 3.11s/it]
{'loss': 0.7459, 'grad_norm': 3.828125, 'learning_rate': 4.940629216615588e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 439.99, 'epoch': 0.83}
8%|████████▎ | 590/7135 [31:25<5:39:20, 3.11s/it]
8%|████████▎ | 591/7135 [31:28<5:44:22, 3.16s/it]
8%|████████▍ | 592/7135 [31:32<6:09:44, 3.39s/it]
8%|████████▍ | 593/7135 [31:35<5:56:02, 3.27s/it]
8%|████████▍ | 594/7135 [31:38<6:01:47, 3.32s/it]
8%|████████▍ | 595/7135 [31:41<5:56:46, 3.27s/it]
8%|████████▍ | 596/7135 [31:44<5:50:56, 3.22s/it]
8%|████████▍ | 597/7135 [31:48<6:02:23, 3.33s/it]
8%|████████▍ | 598/7135 [31:52<6:26:58, 3.55s/it]
8%|████████▍ | 599/7135 [31:55<6:21:11, 3.50s/it]
8%|████████▍ | 600/7135 [31:58<5:55:22, 3.26s/it]
{'loss': 0.8336, 'grad_norm': 5.25, 'learning_rate': 4.9381862932367675e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 498.58, 'epoch': 0.84}
8%|████████▍ | 600/7135 [31:58<5:55:22, 3.26s/it]
8%|████████▌ | 601/7135 [32:03<6:37:54, 3.65s/it]
8%|████████▌ | 602/7135 [32:06<6:19:29, 3.49s/it]
8%|████████▌ | 603/7135 [32:09<6:12:24, 3.42s/it]
8%|████████▌ | 604/7135 [32:12<5:58:45, 3.30s/it]
8%|████████▌ | 605/7135 [32:15<5:50:29, 3.22s/it]
8%|████████▌ | 606/7135 [32:18<5:42:03, 3.14s/it]
9%|████████▌ | 607/7135 [32:21<5:34:20, 3.07s/it]
9%|████████▌ | 608/7135 [32:24<5:18:40, 2.93s/it]
9%|████████▌ | 609/7135 [32:27<5:40:15, 3.13s/it]
9%|████████▋ | 610/7135 [32:30<5:35:25, 3.08s/it]
{'loss': 0.8186, 'grad_norm': 4.5625, 'learning_rate': 4.93569474731086e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 419.56, 'epoch': 0.86}
9%|████████▋ | 610/7135 [32:30<5:35:25, 3.08s/it]
9%|████████▋ | 611/7135 [32:34<5:59:08, 3.30s/it]
9%|████████▋ | 612/7135 [32:37<5:55:39, 3.27s/it]
9%|████████▋ | 613/7135 [32:41<5:57:23, 3.29s/it]
9%|████████▋ | 614/7135 [32:44<6:02:07, 3.33s/it]
9%|████████▋ | 615/7135 [32:47<5:44:41, 3.17s/it]
9%|████████▋ | 616/7135 [32:50<5:41:40, 3.14s/it]
9%|████████▋ | 617/7135 [32:53<5:48:12, 3.21s/it]
9%|████████▋ | 618/7135 [32:56<5:41:24, 3.14s/it]
9%|████████▊ | 619/7135 [33:00<5:47:42, 3.20s/it]
9%|████████▊ | 620/7135 [33:04<6:20:41, 3.51s/it]
{'loss': 1.2614, 'grad_norm': 5.5, 'learning_rate': 4.933154628524514e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 430.36, 'epoch': 0.87}
9%|████████▊ | 620/7135 [33:04<6:20:41, 3.51s/it]
9%|████████▊ | 621/7135 [33:07<6:08:19, 3.39s/it]
9%|████████▊ | 622/7135 [33:10<5:51:57, 3.24s/it]
9%|████████▊ | 623/7135 [33:13<5:43:57, 3.17s/it]
9%|████████▊ | 624/7135 [33:15<5:26:30, 3.01s/it]
9%|████████▊ | 625/7135 [33:18<5:25:02, 3.00s/it]
9%|████████▊ | 626/7135 [33:22<5:34:40, 3.08s/it]
9%|████████▉ | 627/7135 [33:25<5:27:42, 3.02s/it]
9%|████████▉ | 628/7135 [33:28<5:37:24, 3.11s/it]
9%|████████▉ | 629/7135 [33:31<5:38:16, 3.12s/it]
9%|████████▉ | 630/7135 [33:34<5:34:48, 3.09s/it]
{'loss': 0.83, 'grad_norm': 5.125, 'learning_rate': 4.9305659875330245e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 419.74, 'epoch': 0.88}
9%|████████▉ | 630/7135 [33:34<5:34:48, 3.09s/it]
9%|████████▉ | 631/7135 [33:37<5:28:53, 3.03s/it]
9%|████████▉ | 632/7135 [33:40<5:31:26, 3.06s/it]
9%|████████▉ | 633/7135 [33:44<5:49:32, 3.23s/it]
9%|████████▉ | 634/7135 [33:47<5:54:17, 3.27s/it]
9%|████████▉ | 635/7135 [33:50<5:59:49, 3.32s/it]
9%|█████████ | 636/7135 [33:53<5:44:58, 3.18s/it]
9%|█████████ | 637/7135 [33:56<5:30:27, 3.05s/it]
9%|█████████ | 638/7135 [33:59<5:37:19, 3.12s/it]
9%|█████████ | 639/7135 [34:03<6:05:54, 3.38s/it]
9%|█████████ | 640/7135 [34:07<6:05:11, 3.37s/it]
{'loss': 0.7643, 'grad_norm': 4.1875, 'learning_rate': 4.927928875959322e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 414.14, 'epoch': 0.9}
9%|█████████ | 640/7135 [34:07<6:05:11, 3.37s/it]
9%|█████████ | 641/7135 [34:10<5:48:33, 3.22s/it]
9%|█████████ | 642/7135 [34:13<5:46:40, 3.20s/it]
9%|█████████ | 643/7135 [34:16<5:37:59, 3.12s/it]
9%|█████████ | 644/7135 [34:19<5:35:29, 3.10s/it]
9%|█████████▏ | 645/7135 [34:22<5:32:23, 3.07s/it]
9%|█████████▏ | 646/7135 [34:25<5:34:50, 3.10s/it]
9%|█████████▏ | 647/7135 [34:29<6:01:22, 3.34s/it]
9%|█████████▏ | 648/7135 [34:32<5:45:51, 3.20s/it]
9%|█████████▏ | 649/7135 [34:35<5:38:23, 3.13s/it]
9%|█████████▏ | 650/7135 [34:38<5:40:49, 3.15s/it]
{'loss': 0.722, 'grad_norm': 3.703125, 'learning_rate': 4.9252433463929405e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 389.9, 'epoch': 0.91}
9%|█████████▏ | 650/7135 [34:38<5:40:49, 3.15s/it]
9%|█████████▏ | 651/7135 [34:42<6:25:32, 3.57s/it]
9%|█████████▏ | 652/7135 [34:45<5:56:16, 3.30s/it]
9%|█████████▏ | 653/7135 [34:48<5:42:50, 3.17s/it]
9%|█████████▎ | 654/7135 [34:51<5:30:51, 3.06s/it]
9%|█████████▎ | 655/7135 [34:54<5:35:09, 3.10s/it]
9%|█████████▎ | 656/7135 [34:57<5:36:06, 3.11s/it]
9%|█████████▎ | 657/7135 [35:00<5:38:21, 3.13s/it]
9%|█████████▎ | 658/7135 [35:03<5:38:47, 3.14s/it]
9%|█████████▎ | 659/7135 [35:06<5:30:48, 3.06s/it]
9%|█████████▎ | 660/7135 [35:09<5:34:20, 3.10s/it]
{'loss': 0.7834, 'grad_norm': 3.96875, 'learning_rate': 4.922509452388969e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 324.98, 'epoch': 0.93}
9%|█████████▎ | 660/7135 [35:09<5:34:20, 3.10s/it]
9%|█████████▎ | 661/7135 [35:13<5:34:26, 3.10s/it]
9%|█████████▎ | 662/7135 [35:16<5:47:27, 3.22s/it]
9%|█████████▍ | 663/7135 [35:20<5:59:44, 3.34s/it]
9%|█████████▍ | 664/7135 [35:24<6:16:36, 3.49s/it]
9%|█████████▍ | 665/7135 [35:26<5:54:01, 3.28s/it]
9%|█████████▍ | 666/7135 [35:30<5:56:16, 3.30s/it]
9%|█████████▍ | 667/7135 [35:33<5:56:22, 3.31s/it]
9%|█████████▍ | 668/7135 [35:37<6:05:00, 3.39s/it]
9%|█████████▍ | 669/7135 [35:40<6:06:18, 3.40s/it]
9%|█████████▍ | 670/7135 [35:43<5:51:24, 3.26s/it]
{'loss': 0.9713, 'grad_norm': 5.0, 'learning_rate': 4.919727248466989e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 423.05, 'epoch': 0.94}
9%|█████████▍ | 670/7135 [35:43<5:51:24, 3.26s/it]
9%|█████████▍ | 671/7135 [35:46<5:56:59, 3.31s/it]
9%|█████████▌ | 672/7135 [35:50<6:16:30, 3.50s/it]
9%|█████████▌ | 673/7135 [35:53<5:59:37, 3.34s/it]
9%|█████████▌ | 674/7135 [35:56<5:54:42, 3.29s/it]
9%|█████████▌ | 675/7135 [35:59<5:40:08, 3.16s/it]
9%|█████████▌ | 676/7135 [36:02<5:28:42, 3.05s/it]
9%|█████████▌ | 677/7135 [36:05<5:33:19, 3.10s/it]
10%|█████████▌ | 678/7135 [36:09<5:37:46, 3.14s/it]
10%|█████████▌ | 679/7135 [36:12<5:48:08, 3.24s/it]
10%|█████████▋ | 680/7135 [36:15<5:43:44, 3.20s/it]
{'loss': 0.9567, 'grad_norm': 4.1875, 'learning_rate': 4.916896790109979e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 504.54, 'epoch': 0.95}
10%|█████████▋ | 680/7135 [36:15<5:43:44, 3.20s/it]
10%|█████████▋ | 681/7135 [36:18<5:34:59, 3.11s/it]
10%|█████████▋ | 682/7135 [36:21<5:28:48, 3.06s/it]
10%|█████████▋ | 683/7135 [36:24<5:33:06, 3.10s/it]
10%|█████████▋ | 684/7135 [36:28<5:43:59, 3.20s/it]
10%|█████████▋ | 685/7135 [36:30<5:32:24, 3.09s/it]
10%|█████████▋ | 686/7135 [36:34<5:55:38, 3.31s/it]
10%|█████████▋ | 687/7135 [36:37<5:52:01, 3.28s/it]
10%|█████████▋ | 688/7135 [36:41<6:08:08, 3.43s/it]
10%|█████████▊ | 689/7135 [36:45<6:18:51, 3.53s/it]
10%|█████████▊ | 690/7135 [36:48<5:51:46, 3.27s/it]
{'loss': 0.7532, 'grad_norm': 4.65625, 'learning_rate': 4.914018133763212e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 486.96, 'epoch': 0.97}
10%|█████████▊ | 690/7135 [36:48<5:51:46, 3.27s/it]
10%|█████████▊ | 691/7135 [36:51<5:45:58, 3.22s/it]
10%|█████████▊ | 692/7135 [36:54<5:36:08, 3.13s/it]
10%|█████████▊ | 693/7135 [36:57<5:35:46, 3.13s/it]
10%|█████████▊ | 694/7135 [37:00<5:52:03, 3.28s/it]
10%|█████████▊ | 695/7135 [37:04<5:50:28, 3.27s/it]
10%|█████████▊ | 696/7135 [37:07<5:45:12, 3.22s/it]
10%|█████████▊ | 697/7135 [37:10<5:45:30, 3.22s/it]
10%|█████████▉ | 698/7135 [37:14<6:01:36, 3.37s/it]
10%|█████████▉ | 699/7135 [37:17<5:56:12, 3.32s/it]
10%|█████████▉ | 700/7135 [37:20<5:45:35, 3.22s/it]
{'loss': 0.8138, 'grad_norm': 4.4375, 'learning_rate': 4.911091336833133e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 387.2, 'epoch': 0.98}
10%|█████████▉ | 700/7135 [37:20<5:45:35, 3.22s/it]
10%|█████████▉ | 701/7135 [37:23<5:47:58, 3.24s/it]
10%|█████████▉ | 702/7135 [37:26<5:33:12, 3.11s/it]
10%|█████████▉ | 703/7135 [37:30<5:48:27, 3.25s/it]
10%|█████████▉ | 704/7135 [37:33<6:06:40, 3.42s/it]
10%|█████████▉ | 705/7135 [37:36<5:52:16, 3.29s/it]
10%|█████████▉ | 706/7135 [37:39<5:41:25, 3.19s/it]
10%|██████████ | 707/7135 [37:42<5:40:48, 3.18s/it]
10%|██████████ | 708/7135 [37:45<5:32:39, 3.11s/it]
10%|██████████ | 709/7135 [37:48<5:22:21, 3.01s/it]
10%|██████████ | 710/7135 [37:52<5:35:44, 3.14s/it]
{'loss': 0.7921, 'grad_norm': 6.1875, 'learning_rate': 4.908116457686211e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 380.85, 'epoch': 1.0}
10%|██████████ | 710/7135 [37:52<5:35:44, 3.14s/it]
10%|██████████ | 711/7135 [37:55<5:35:01, 3.13s/it]
10%|██████████ | 712/7135 [37:58<5:48:21, 3.25s/it]
10%|██████████ | 713/7135 [38:01<5:32:41, 3.11s/it]
10%|██████████ | 714/7135 [38:03<4:45:55, 2.67s/it][2025-12-23 15:02:08,859] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-714
10%|██████████ | 715/7135 [39:10<39:35:02, 22.20s/it]
10%|██████████ | 716/7135 [39:13<29:07:15, 16.33s/it]
10%|██████████ | 717/7135 [39:17<22:13:42, 12.47s/it]
10%|██████████ | 718/7135 [39:19<16:58:53, 9.53s/it]
10%|██████████ | 719/7135 [39:22<13:29:09, 7.57s/it]
10%|██████████ | 720/7135 [39:25<11:08:03, 6.25s/it]
{'loss': 0.8482, 'grad_norm': 4.84375, 'learning_rate': 4.905093555647773e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 348.01, 'epoch': 1.01}
10%|██████████ | 720/7135 [39:25<11:08:03, 6.25s/it]
10%|██████████▏ | 721/7135 [39:28<9:16:56, 5.21s/it]
10%|██████████▏ | 722/7135 [39:31<8:13:19, 4.62s/it]
10%|██████████▏ | 723/7135 [39:35<7:26:21, 4.18s/it]
10%|██████████▏ | 724/7135 [39:38<7:02:47, 3.96s/it]
10%|██████████▎ | 725/7135 [39:41<6:40:56, 3.75s/it]
10%|██████████▎ | 726/7135 [39:45<6:27:04, 3.62s/it]
10%|██████████▎ | 727/7135 [39:49<6:39:01, 3.74s/it]
10%|██████████▎ | 728/7135 [39:52<6:21:57, 3.58s/it]
10%|██████████▎ | 729/7135 [39:55<6:12:12, 3.49s/it]
10%|██████████▎ | 730/7135 [39:58<5:59:05, 3.36s/it]
{'loss': 0.7303, 'grad_norm': 4.0625, 'learning_rate': 4.9020226910008225e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 357.93, 'epoch': 1.02}
10%|██████████▎ | 730/7135 [39:58<5:59:05, 3.36s/it]
10%|██████████▎ | 731/7135 [40:01<5:51:47, 3.30s/it]
10%|██████████▎ | 732/7135 [40:05<5:50:57, 3.29s/it]
10%|██████████▍ | 733/7135 [40:08<5:44:37, 3.23s/it]
10%|██████████▍ | 734/7135 [40:11<5:49:53, 3.28s/it]
10%|██████████▍ | 735/7135 [40:14<5:48:06, 3.26s/it]
10%|██████████▍ | 736/7135 [40:17<5:43:56, 3.22s/it]
10%|██████████▍ | 737/7135 [40:20<5:34:17, 3.13s/it]
10%|██████████▍ | 738/7135 [40:23<5:34:15, 3.14s/it]
10%|██████████▍ | 739/7135 [40:27<5:39:19, 3.18s/it]
10%|██████████▍ | 740/7135 [40:30<5:35:10, 3.14s/it]
{'loss': 0.7801, 'grad_norm': 5.28125, 'learning_rate': 4.898903924984842e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 420.3, 'epoch': 1.04}
10%|██████████▍ | 740/7135 [40:30<5:35:10, 3.14s/it]
10%|██████████▍ | 741/7135 [40:33<5:27:40, 3.07s/it]
10%|██████████▌ | 742/7135 [40:36<5:27:39, 3.08s/it]
10%|██████████▌ | 743/7135 [40:40<6:03:24, 3.41s/it]
10%|██████████▌ | 744/7135 [40:43<5:58:48, 3.37s/it]
10%|██████████▌ | 745/7135 [40:47<6:17:33, 3.55s/it]
10%|██████████▌ | 746/7135 [40:50<5:55:50, 3.34s/it]
10%|██████████▌ | 747/7135 [40:54<6:13:50, 3.51s/it]
10%|██████████▌ | 748/7135 [40:57<6:06:16, 3.44s/it]
10%|██████████▌ | 749/7135 [41:00<5:56:04, 3.35s/it]
11%|██████████▌ | 750/7135 [41:04<6:01:10, 3.39s/it]
{'loss': 0.9555, 'grad_norm': 5.0, 'learning_rate': 4.8957373197945634e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 479.42, 'epoch': 1.05}
11%|██████████▌ | 750/7135 [41:04<6:01:10, 3.39s/it]
11%|██████████▋ | 751/7135 [41:07<5:59:22, 3.38s/it]
11%|██████████▋ | 752/7135 [41:11<6:09:52, 3.48s/it]
11%|██████████▋ | 753/7135 [41:14<6:01:14, 3.40s/it]
11%|██████████▋ | 754/7135 [41:18<6:16:25, 3.54s/it]
11%|██████████▋ | 755/7135 [41:21<6:01:48, 3.40s/it]
11%|██████████▋ | 756/7135 [41:24<5:50:25, 3.30s/it]
11%|██████████▋ | 757/7135 [41:28<6:01:55, 3.40s/it]
11%|██████████▋ | 758/7135 [41:31<5:43:55, 3.24s/it]
11%|██████████▋ | 759/7135 [41:34<5:52:53, 3.32s/it]
11%|██████████▊ | 760/7135 [41:37<5:46:44, 3.26s/it]
{'loss': 0.7804, 'grad_norm': 4.5625, 'learning_rate': 4.892522938578735e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 394.38, 'epoch': 1.06}
11%|██████████▊ | 760/7135 [41:37<5:46:44, 3.26s/it]
11%|██████████▊ | 761/7135 [41:40<5:31:06, 3.12s/it]
11%|██████████▊ | 762/7135 [41:44<5:45:54, 3.26s/it]
11%|██████████▊ | 763/7135 [41:47<5:39:01, 3.19s/it]
11%|██████████▊ | 764/7135 [41:51<6:13:58, 3.52s/it]
11%|██████████▊ | 765/7135 [41:54<5:55:23, 3.35s/it]
11%|██████████▊ | 766/7135 [41:58<6:03:26, 3.42s/it]
11%|██████████▊ | 767/7135 [42:01<5:52:37, 3.32s/it]
11%|██████████▊ | 768/7135 [42:05<6:10:21, 3.49s/it]
11%|██████████▉ | 769/7135 [42:08<6:25:08, 3.63s/it]
11%|██████████▉ | 770/7135 [42:12<6:19:42, 3.58s/it]
{'loss': 1.1608, 'grad_norm': 2.984375, 'learning_rate': 4.889260845438858e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 540.78, 'epoch': 1.08}
11%|██████████▉ | 770/7135 [42:12<6:19:42, 3.58s/it]
11%|██████████▉ | 771/7135 [42:16<6:19:09, 3.57s/it]
11%|██████████▉ | 772/7135 [42:18<6:00:12, 3.40s/it]
11%|██████████▉ | 773/7135 [42:22<6:02:39, 3.42s/it]
11%|██████████▉ | 774/7135 [42:25<6:05:00, 3.44s/it]
11%|██████████▉ | 775/7135 [42:29<6:02:22, 3.42s/it]
11%|██████████▉ | 776/7135 [42:32<5:54:30, 3.34s/it]
11%|██████████▉ | 777/7135 [42:35<5:44:05, 3.25s/it]
11%|███████████ | 778/7135 [42:38<5:50:00, 3.30s/it]
11%|███████████ | 779/7135 [42:42<6:05:48, 3.45s/it]
11%|███████████ | 780/7135 [42:45<5:53:52, 3.34s/it]
{'loss': 0.8318, 'grad_norm': 5.125, 'learning_rate': 4.8859511054279095e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 403.24, 'epoch': 1.09}
11%|███████████ | 780/7135 [42:45<5:53:52, 3.34s/it]
11%|███████████ | 781/7135 [42:48<5:45:12, 3.26s/it]
11%|███████████ | 782/7135 [42:51<5:32:33, 3.14s/it]
11%|███████████ | 783/7135 [42:54<5:21:50, 3.04s/it]
11%|███████████ | 784/7135 [42:57<5:26:05, 3.08s/it]
11%|███████████ | 785/7135 [43:00<5:28:05, 3.10s/it]
11%|███████████▏ | 786/7135 [43:03<5:22:01, 3.04s/it]
11%|███████████▏ | 787/7135 [43:06<5:15:41, 2.98s/it]
11%|███████████▏ | 788/7135 [43:09<5:17:39, 3.00s/it]
11%|███████████▏ | 789/7135 [43:12<5:07:32, 2.91s/it]
11%|███████████▏ | 790/7135 [43:15<5:07:30, 2.91s/it]
{'loss': 0.761, 'grad_norm': 2.9375, 'learning_rate': 4.882593784549045e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 379.82, 'epoch': 1.11}
11%|███████████▏ | 790/7135 [43:15<5:07:30, 2.91s/it]
11%|███████████▏ | 791/7135 [43:18<5:24:07, 3.07s/it]
11%|███████████▏ | 792/7135 [43:22<5:42:55, 3.24s/it]
11%|███████████▏ | 793/7135 [43:25<5:48:10, 3.29s/it]
11%|███████████▏ | 794/7135 [43:28<5:29:53, 3.12s/it]
11%|███████████▎ | 795/7135 [43:31<5:26:48, 3.09s/it]
11%|███████████▎ | 796/7135 [43:34<5:35:19, 3.17s/it]
11%|███████████▎ | 797/7135 [43:37<5:27:51, 3.10s/it]
11%|███████████▎ | 798/7135 [43:41<5:30:46, 3.13s/it]
11%|███████████▎ | 799/7135 [43:43<5:21:47, 3.05s/it]
11%|███████████▎ | 800/7135 [43:47<5:28:03, 3.11s/it]
{'loss': 0.8464, 'grad_norm': 4.3125, 'learning_rate': 4.879188949754283e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 388.07, 'epoch': 1.12}
11%|███████████▎ | 800/7135 [43:47<5:28:03, 3.11s/it]
11%|███████████▎ | 801/7135 [43:50<5:35:08, 3.17s/it]
11%|███████████▎ | 802/7135 [43:53<5:41:55, 3.24s/it]
11%|███████████▎ | 803/7135 [43:56<5:25:49, 3.09s/it]
11%|███████████▍ | 804/7135 [43:59<5:12:08, 2.96s/it]
11%|███████████▍ | 805/7135 [44:01<4:58:36, 2.83s/it]
11%|███████████▍ | 806/7135 [44:04<5:01:36, 2.86s/it]
11%|███████████▍ | 807/7135 [44:08<5:20:29, 3.04s/it]
11%|███████████▍ | 808/7135 [44:11<5:34:15, 3.17s/it]
11%|███████████▍ | 809/7135 [44:14<5:33:30, 3.16s/it]
11%|███████████▍ | 810/7135 [44:18<5:46:45, 3.29s/it]
{'loss': 0.7232, 'grad_norm': 5.625, 'learning_rate': 4.875736668943167e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 371.72, 'epoch': 1.13}
11%|███████████▍ | 810/7135 [44:18<5:46:45, 3.29s/it]
11%|███████████▍ | 811/7135 [44:21<5:46:18, 3.29s/it]
11%|███████████▍ | 812/7135 [44:24<5:32:33, 3.16s/it]
11%|███████████▌ | 813/7135 [44:27<5:29:31, 3.13s/it]
11%|███████████▌ | 814/7135 [44:30<5:28:42, 3.12s/it]
11%|███████████▌ | 815/7135 [44:33<5:18:24, 3.02s/it]
11%|███████████▌ | 816/7135 [44:36<5:14:59, 2.99s/it]
11%|███████████▌ | 817/7135 [44:39<5:24:07, 3.08s/it]
11%|███████████▌ | 818/7135 [44:42<5:12:54, 2.97s/it]
11%|███████████▌ | 819/7135 [44:45<5:16:14, 3.00s/it]
11%|███████████▌ | 820/7135 [44:48<5:18:01, 3.02s/it]
{'loss': 0.7745, 'grad_norm': 4.5625, 'learning_rate': 4.872237010961418e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 405.47, 'epoch': 1.15}
11%|███████████▌ | 820/7135 [44:48<5:18:01, 3.02s/it]
12%|███████████▌ | 821/7135 [44:51<5:27:13, 3.11s/it]
12%|███████████▋ | 822/7135 [44:54<5:09:26, 2.94s/it]
12%|███████████▋ | 823/7135 [44:57<5:26:28, 3.10s/it]
12%|███████████▋ | 824/7135 [45:00<5:21:12, 3.05s/it]
12%|███████████▋ | 825/7135 [45:04<5:43:20, 3.26s/it]
12%|███████████▋ | 826/7135 [45:07<5:38:16, 3.22s/it]
12%|███████████▋ | 827/7135 [45:10<5:20:52, 3.05s/it]
12%|███████████▋ | 828/7135 [45:13<5:22:40, 3.07s/it]
12%|███████████▋ | 829/7135 [45:16<5:24:58, 3.09s/it]
12%|███████████▋ | 830/7135 [45:19<5:24:48, 3.09s/it]
{'loss': 0.7386, 'grad_norm': 4.0625, 'learning_rate': 4.868690045599551e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 383.37, 'epoch': 1.16}
12%|███████████▋ | 830/7135 [45:19<5:24:48, 3.09s/it]
12%|███████████▊ | 831/7135 [45:22<5:26:55, 3.11s/it]
12%|███████████▊ | 832/7135 [45:25<5:18:51, 3.04s/it]
12%|███████████▊ | 833/7135 [45:28<5:25:55, 3.10s/it]
12%|███████████▊ | 834/7135 [45:31<5:13:40, 2.99s/it]
12%|███████████▊ | 835/7135 [45:34<5:19:49, 3.05s/it]
12%|███████████▊ | 836/7135 [45:37<5:13:42, 2.99s/it]
12%|███████████▊ | 837/7135 [45:41<5:26:50, 3.11s/it]
12%|███████████▊ | 838/7135 [45:44<5:33:12, 3.17s/it]
12%|███████████▉ | 839/7135 [45:47<5:32:49, 3.17s/it]
12%|███████████▉ | 840/7135 [45:50<5:23:25, 3.08s/it]
{'loss': 0.766, 'grad_norm': 4.8125, 'learning_rate': 4.8650958435914955e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 396.34, 'epoch': 1.18}
12%|███████████▉ | 840/7135 [45:50<5:23:25, 3.08s/it]
12%|███████████▉ | 841/7135 [45:53<5:36:17, 3.21s/it]
12%|███████████▉ | 842/7135 [45:57<5:50:43, 3.34s/it]
12%|███████████▉ | 843/7135 [46:00<5:41:12, 3.25s/it]
12%|███████████▉ | 844/7135 [46:03<5:38:53, 3.23s/it]
12%|███████████▉ | 845/7135 [46:07<5:40:36, 3.25s/it]
12%|███████████▉ | 846/7135 [46:10<5:43:58, 3.28s/it]
12%|███████████▉ | 847/7135 [46:13<5:43:42, 3.28s/it]
12%|████████████ | 848/7135 [46:17<5:55:21, 3.39s/it]
12%|████████████ | 849/7135 [46:20<5:49:36, 3.34s/it]
12%|████████████ | 850/7135 [46:23<5:42:41, 3.27s/it]
{'loss': 0.78, 'grad_norm': 3.1875, 'learning_rate': 4.861454476613174e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 467.15, 'epoch': 1.19}
12%|████████████ | 850/7135 [46:23<5:42:41, 3.27s/it]
12%|████████████ | 851/7135 [46:27<6:12:24, 3.56s/it]
12%|████████████ | 852/7135 [46:31<6:10:58, 3.54s/it]
12%|████████████ | 853/7135 [46:34<5:51:22, 3.36s/it]
12%|████████████ | 854/7135 [46:37<5:29:12, 3.14s/it]
12%|████████████ | 855/7135 [46:40<5:26:07, 3.12s/it]
12%|████████████ | 856/7135 [46:43<5:37:49, 3.23s/it]
12%|████████████▏ | 857/7135 [46:46<5:35:19, 3.20s/it]
12%|████████████▏ | 858/7135 [46:49<5:27:36, 3.13s/it]
12%|████████████▏ | 859/7135 [46:53<5:38:01, 3.23s/it]
12%|████████████▏ | 860/7135 [46:56<5:25:44, 3.11s/it]
{'loss': 0.6875, 'grad_norm': 3.9375, 'learning_rate': 4.8577660172810804e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 526.24, 'epoch': 1.2}
12%|████████████▏ | 860/7135 [46:56<5:25:44, 3.11s/it]
12%|████████████▏ | 861/7135 [46:58<5:20:42, 3.07s/it]
12%|████████████▏ | 862/7135 [47:02<5:36:48, 3.22s/it]
12%|████████████▏ | 863/7135 [47:05<5:30:45, 3.16s/it]
12%|████████████▏ | 864/7135 [47:08<5:20:36, 3.07s/it]
12%|████████████▏ | 865/7135 [47:11<5:22:33, 3.09s/it]
12%|████████████▎ | 866/7135 [47:14<5:24:31, 3.11s/it]
12%|████████████▎ | 867/7135 [47:17<5:14:54, 3.01s/it]
12%|████████████▎ | 868/7135 [47:20<5:14:23, 3.01s/it]
12%|████████████▎ | 869/7135 [47:23<5:15:12, 3.02s/it]
12%|████████████▎ | 870/7135 [47:26<5:16:22, 3.03s/it]
{'loss': 0.8772, 'grad_norm': 4.375, 'learning_rate': 4.854030539150827e-06, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 394.55, 'epoch': 1.22}
12%|████████████▎ | 870/7135 [47:26<5:16:22, 3.03s/it]
12%|████████████▎ | 871/7135 [47:29<5:22:43, 3.09s/it]
12%|████████████▎ | 872/7135 [47:32<5:24:00, 3.10s/it]
12%|████████████▎ | 873/7135 [47:36<5:22:03, 3.09s/it]
12%|████████████▎ | 874/7135 [47:38<5:11:05, 2.98s/it]
12%|████████████▍ | 875/7135 [47:41<5:07:50, 2.95s/it]
12%|████████████▍ | 876/7135 [47:45<5:26:31, 3.13s/it]
12%|████████████▍ | 877/7135 [47:48<5:40:14, 3.26s/it]
12%|████████████▍ | 878/7135 [47:51<5:26:23, 3.13s/it]
12%|████████████▍ | 879/7135 [47:54<5:34:14, 3.21s/it]
12%|████████████▍ | 880/7135 [47:58<5:30:06, 3.17s/it]
{'loss': 0.7364, 'grad_norm': 4.59375, 'learning_rate': 4.85024811671568e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 367.58, 'epoch': 1.23}
12%|████████████▍ | 880/7135 [47:58<5:30:06, 3.17s/it]
12%|████████████▍ | 881/7135 [48:01<5:30:02, 3.17s/it]
12%|████████████▍ | 882/7135 [48:04<5:27:57, 3.15s/it]
12%|████████████▍ | 883/7135 [48:07<5:21:25, 3.08s/it]
12%|████████████▌ | 884/7135 [48:10<5:24:13, 3.11s/it]
12%|████████████▌ | 885/7135 [48:13<5:37:55, 3.24s/it]
12%|████████████▌ | 886/7135 [48:17<5:54:28, 3.40s/it]
12%|████████████▌ | 887/7135 [48:20<5:49:44, 3.36s/it]
12%|████████████▌ | 888/7135 [48:24<5:54:11, 3.40s/it]
12%|████████████▌ | 889/7135 [48:27<5:43:42, 3.30s/it]
12%|████████████▌ | 890/7135 [48:30<5:30:54, 3.18s/it]
{'loss': 0.7291, 'grad_norm': 3.6875, 'learning_rate': 4.846418825405075e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 463.57, 'epoch': 1.25}
12%|████████████▌ | 890/7135 [48:30<5:30:54, 3.18s/it]
12%|████████████▌ | 891/7135 [48:33<5:16:08, 3.04s/it]
13%|████████████▋ | 892/7135 [48:36<5:35:43, 3.23s/it]
13%|████████████▋ | 893/7135 [48:39<5:29:56, 3.17s/it]
13%|████████████▋ | 894/7135 [48:43<5:28:39, 3.16s/it]
13%|████████████▋ | 895/7135 [48:46<5:50:38, 3.37s/it]
13%|████████████▋ | 896/7135 [48:49<5:36:54, 3.24s/it]
13%|████████████▋ | 897/7135 [48:53<5:49:02, 3.36s/it]
13%|████████████▋ | 898/7135 [48:56<5:48:18, 3.35s/it]
13%|████████████▋ | 899/7135 [48:59<5:31:35, 3.19s/it]
13%|████████████▋ | 900/7135 [49:02<5:34:39, 3.22s/it]
{'loss': 0.9526, 'grad_norm': 3.84375, 'learning_rate': 4.842542741583108e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 371.73, 'epoch': 1.26}
13%|████████████▋ | 900/7135 [49:02<5:34:39, 3.22s/it]
13%|████████████▊ | 901/7135 [49:06<5:46:57, 3.34s/it]
13%|████████████▊ | 902/7135 [49:09<5:27:18, 3.15s/it]
13%|████████████▊ | 903/7135 [49:12<5:39:29, 3.27s/it]
13%|████████████▊ | 904/7135 [49:15<5:26:17, 3.14s/it]
13%|████████████▊ | 905/7135 [49:18<5:26:52, 3.15s/it]
13%|████████████▊ | 906/7135 [49:21<5:26:44, 3.15s/it]
13%|████████████▊ | 907/7135 [49:25<5:26:15, 3.14s/it]
13%|████████████▊ | 908/7135 [49:28<5:21:17, 3.10s/it]
13%|████████████▊ | 909/7135 [49:31<5:25:19, 3.14s/it]
13%|████████████▉ | 910/7135 [49:34<5:32:20, 3.20s/it]
{'loss': 0.7762, 'grad_norm': 3.984375, 'learning_rate': 4.83861994254702e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 333.69, 'epoch': 1.27}
13%|████████████▉ | 910/7135 [49:34<5:32:20, 3.20s/it]
13%|████████████▉ | 911/7135 [49:38<5:43:50, 3.31s/it]
13%|████████████▉ | 912/7135 [49:41<5:42:12, 3.30s/it]
13%|████████████▉ | 913/7135 [49:45<5:52:35, 3.40s/it]
13%|████████████▉ | 914/7135 [49:47<5:37:11, 3.25s/it]
13%|████████████▉ | 915/7135 [49:51<5:31:05, 3.19s/it]
13%|████████████▉ | 916/7135 [49:53<5:13:04, 3.02s/it]
13%|████████████▉ | 917/7135 [49:56<5:15:33, 3.04s/it]
13%|████████████▉ | 918/7135 [50:00<5:31:10, 3.20s/it]
13%|█████████████ | 919/7135 [50:04<5:51:48, 3.40s/it]
13%|█████████████ | 920/7135 [50:07<5:58:25, 3.46s/it]
{'loss': 0.7811, 'grad_norm': 5.375, 'learning_rate': 4.834650506525649e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 393.96, 'epoch': 1.29}
13%|█████████████ | 920/7135 [50:07<5:58:25, 3.46s/it]
13%|█████████████ | 921/7135 [50:11<5:52:12, 3.40s/it]
13%|█████████████ | 922/7135 [50:14<5:42:03, 3.30s/it]
13%|█████████████ | 923/7135 [50:17<5:32:07, 3.21s/it]
13%|█████████████ | 924/7135 [50:20<5:27:55, 3.17s/it]
13%|█████████████ | 925/7135 [50:23<5:23:21, 3.12s/it]
13%|█████████████ | 926/7135 [50:25<5:12:00, 3.02s/it]
13%|█████████████ | 927/7135 [50:29<5:20:53, 3.10s/it]
13%|█████████████▏ | 928/7135 [50:32<5:20:32, 3.10s/it]
13%|█████████████▏ | 929/7135 [50:35<5:21:37, 3.11s/it]
13%|█████████████▏ | 930/7135 [50:39<5:38:01, 3.27s/it]
{'loss': 0.8047, 'grad_norm': 4.375, 'learning_rate': 4.83063451267787e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 330.69, 'epoch': 1.3}
13%|█████████████▏ | 930/7135 [50:39<5:38:01, 3.27s/it]
13%|█████████████▏ | 931/7135 [50:42<5:34:51, 3.24s/it]
13%|█████████████▏ | 932/7135 [50:45<5:31:43, 3.21s/it]
13%|█████████████▏ | 933/7135 [50:48<5:35:48, 3.25s/it]
13%|█████████████▏ | 934/7135 [50:51<5:30:59, 3.20s/it]
13%|█████████████▏ | 935/7135 [50:54<5:19:15, 3.09s/it]
13%|█████████████▏ | 936/7135 [50:57<5:02:52, 2.93s/it]
13%|█████████████▎ | 937/7135 [50:59<4:50:54, 2.82s/it]
13%|█████████████▎ | 938/7135 [51:02<5:00:19, 2.91s/it]
13%|█████████████▎ | 939/7135 [51:06<5:16:28, 3.06s/it]
13%|█████████████▎ | 940/7135 [51:09<5:18:52, 3.09s/it]
{'loss': 0.6933, 'grad_norm': 4.25, 'learning_rate': 4.826572041091024e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 338.26, 'epoch': 1.32}
13%|█████████████▎ | 940/7135 [51:09<5:18:52, 3.09s/it]
13%|█████████████▎ | 941/7135 [51:12<5:18:44, 3.09s/it]
13%|█████████████▎ | 942/7135 [51:15<5:18:24, 3.08s/it]
13%|█████████████▎ | 943/7135 [51:18<5:15:59, 3.06s/it]
13%|█████████████▎ | 944/7135 [51:22<5:29:06, 3.19s/it]
13%|█████████████▍ | 945/7135 [51:25<5:27:29, 3.17s/it]
13%|█████████████▍ | 946/7135 [51:28<5:14:17, 3.05s/it]
13%|█████████████▍ | 947/7135 [51:31<5:24:53, 3.15s/it]
13%|█████████████▍ | 948/7135 [51:34<5:18:10, 3.09s/it]
13%|█████████████▍ | 949/7135 [51:37<5:26:55, 3.17s/it]
13%|█████████████▍ | 950/7135 [51:41<5:33:54, 3.24s/it]
{'loss': 0.9569, 'grad_norm': 3.328125, 'learning_rate': 4.82246317277931e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 389.1, 'epoch': 1.33}
13%|█████████████▍ | 950/7135 [51:41<5:33:54, 3.24s/it]
13%|█████████████▍ | 951/7135 [51:44<5:30:01, 3.20s/it]
13%|█████████████▍ | 952/7135 [51:47<5:27:32, 3.18s/it]
13%|█████████████▍ | 953/7135 [51:51<5:57:32, 3.47s/it]
13%|█████████████▌ | 954/7135 [51:54<5:54:12, 3.44s/it]
13%|█████████████▌ | 955/7135 [51:57<5:34:06, 3.24s/it]
13%|█████████████▌ | 956/7135 [52:00<5:20:17, 3.11s/it]
13%|█████████████▌ | 957/7135 [52:03<5:26:46, 3.17s/it]
13%|█████████████▌ | 958/7135 [52:07<5:28:06, 3.19s/it]
13%|█████████████▌ | 959/7135 [52:10<5:22:21, 3.13s/it]
13%|█████████████▌ | 960/7135 [52:13<5:20:20, 3.11s/it]
{'loss': 0.722, 'grad_norm': 4.28125, 'learning_rate': 4.81830798968218e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 416.22, 'epoch': 1.34}
13%|█████████████▌ | 960/7135 [52:13<5:20:20, 3.11s/it]
13%|█████████████▌ | 961/7135 [52:16<5:15:15, 3.06s/it]
13%|█████████████▌ | 962/7135 [52:19<5:41:00, 3.31s/it]
13%|█████████████▋ | 963/7135 [52:23<5:41:59, 3.32s/it]
14%|█████████████▋ | 964/7135 [52:27<6:02:06, 3.52s/it]
14%|█████████████▋ | 965/7135 [52:30<5:48:14, 3.39s/it]
14%|█████████████▋ | 966/7135 [52:34<6:18:41, 3.68s/it]
14%|█████████████▋ | 967/7135 [52:38<6:07:33, 3.58s/it]
14%|█████████████▋ | 968/7135 [52:41<6:15:45, 3.66s/it]
14%|█████████████▋ | 969/7135 [52:45<6:14:26, 3.64s/it]
14%|█████████████▋ | 970/7135 [52:49<6:11:59, 3.62s/it]
{'loss': 0.8559, 'grad_norm': 3.21875, 'learning_rate': 4.814106574662697e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 434.88, 'epoch': 1.36}
14%|█████████████▋ | 970/7135 [52:49<6:11:59, 3.62s/it]
14%|█████████████▋ | 971/7135 [52:52<5:55:54, 3.46s/it]
14%|█████████████▊ | 972/7135 [52:54<5:35:13, 3.26s/it]
14%|█████████████▊ | 973/7135 [52:58<5:36:21, 3.28s/it]
14%|█████████████▊ | 974/7135 [53:01<5:38:50, 3.30s/it]
14%|█████████████▊ | 975/7135 [53:04<5:18:09, 3.10s/it]
14%|█████████████▊ | 976/7135 [53:07<5:17:31, 3.09s/it]
14%|█████████████▊ | 977/7135 [53:10<5:14:57, 3.07s/it]
14%|█████████████▊ | 978/7135 [53:13<5:21:18, 3.13s/it]
14%|█████████████▊ | 979/7135 [53:16<5:14:37, 3.07s/it]
14%|█████████████▊ | 980/7135 [53:19<5:11:04, 3.03s/it]
{'loss': 0.7647, 'grad_norm': 4.34375, 'learning_rate': 4.809859011505885e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 377.4, 'epoch': 1.37}
14%|█████████████▊ | 980/7135 [53:19<5:11:04, 3.03s/it]
14%|█████████████▉ | 981/7135 [53:22<5:01:57, 2.94s/it]
14%|█████████████▉ | 982/7135 [53:25<5:07:06, 2.99s/it]
14%|█████████████▉ | 983/7135 [53:29<5:37:03, 3.29s/it]
14%|█████████████▉ | 984/7135 [53:32<5:26:58, 3.19s/it]
14%|█████████████▉ | 985/7135 [53:35<5:21:57, 3.14s/it]
14%|█████████████▉ | 986/7135 [53:38<5:25:28, 3.18s/it]
14%|█████████████▉ | 987/7135 [53:42<5:46:21, 3.38s/it]
14%|█████████████▉ | 988/7135 [53:45<5:35:15, 3.27s/it]
14%|█████████████▉ | 989/7135 [53:49<5:47:33, 3.39s/it]
14%|██████████████ | 990/7135 [53:52<5:37:40, 3.30s/it]
{'loss': 0.9132, 'grad_norm': 4.0, 'learning_rate': 4.8055653849170605e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 521.41, 'epoch': 1.39}
14%|██████████████ | 990/7135 [53:52<5:37:40, 3.30s/it]
14%|██████████████ | 991/7135 [53:55<5:37:23, 3.29s/it]
14%|██████████████ | 992/7135 [53:58<5:26:16, 3.19s/it]
14%|██████████████ | 993/7135 [54:01<5:15:13, 3.08s/it]
14%|██████████████ | 994/7135 [54:04<5:10:16, 3.03s/it]
14%|██████████████ | 995/7135 [54:07<5:19:49, 3.13s/it]
14%|██████████████ | 996/7135 [54:10<5:13:50, 3.07s/it]
14%|██████████████ | 997/7135 [54:13<5:16:35, 3.09s/it]
14%|██████████████▏ | 998/7135 [54:17<5:31:16, 3.24s/it]
14%|██████████████▏ | 999/7135 [54:20<5:26:34, 3.19s/it]
14%|██████████████ | 1000/7135 [54:23<5:26:36, 3.19s/it]
{'loss': 0.7335, 'grad_norm': 5.28125, 'learning_rate': 4.80122578052014e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 342.98, 'epoch': 1.4}
14%|██████████████ | 1000/7135 [54:23<5:26:36, 3.19s/it]
14%|██████████████ | 1001/7135 [54:26<5:30:25, 3.23s/it]
14%|██████████████ | 1002/7135 [54:29<5:27:39, 3.21s/it]
14%|██████████████ | 1003/7135 [54:33<5:45:54, 3.38s/it]
14%|██████████████ | 1004/7135 [54:37<6:05:25, 3.58s/it]
14%|██████████████ | 1005/7135 [54:40<5:44:15, 3.37s/it]
14%|██████████████ | 1006/7135 [54:43<5:34:50, 3.28s/it]
14%|██████████████ | 1007/7135 [54:47<5:46:49, 3.40s/it]
14%|██████████████▏ | 1008/7135 [54:50<5:47:21, 3.40s/it]
14%|██████████████▏ | 1009/7135 [54:54<5:47:15, 3.40s/it]
14%|██████████████▏ | 1010/7135 [54:57<5:38:33, 3.32s/it]
{'loss': 0.7459, 'grad_norm': 4.59375, 'learning_rate': 4.796840284855934e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 423.05, 'epoch': 1.41}
14%|██████████████▏ | 1010/7135 [54:57<5:38:33, 3.32s/it]
14%|██████████████▏ | 1011/7135 [55:00<5:25:16, 3.19s/it]
14%|██████████████▏ | 1012/7135 [55:03<5:29:59, 3.23s/it]
14%|██████████████▏ | 1013/7135 [55:07<5:37:47, 3.31s/it]
14%|██████████████▏ | 1014/7135 [55:10<5:27:34, 3.21s/it]
14%|██████████████▏ | 1015/7135 [55:13<5:23:15, 3.17s/it]
14%|██████████████▏ | 1016/7135 [55:16<5:28:52, 3.22s/it]
14%|██████████████▎ | 1017/7135 [55:19<5:28:35, 3.22s/it]
14%|██████████████▎ | 1018/7135 [55:23<5:45:44, 3.39s/it]
14%|██████████████▎ | 1019/7135 [55:27<5:59:24, 3.53s/it]
14%|██████████████▎ | 1020/7135 [55:30<5:52:45, 3.46s/it]
{'loss': 0.8484, 'grad_norm': 7.75, 'learning_rate': 4.792408985380424e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 463.38, 'epoch': 1.43}
14%|██████████████▎ | 1020/7135 [55:30<5:52:45, 3.46s/it]
14%|██████████████▎ | 1021/7135 [55:33<5:38:27, 3.32s/it]
14%|██████████████▎ | 1022/7135 [55:36<5:29:49, 3.24s/it]
14%|██████████████▎ | 1023/7135 [55:40<5:37:41, 3.32s/it]
14%|██████████████▎ | 1024/7135 [55:43<5:27:12, 3.21s/it]
14%|██████████████▎ | 1025/7135 [55:46<5:30:47, 3.25s/it]
14%|██████████████▍ | 1026/7135 [55:49<5:22:19, 3.17s/it]
14%|██████████████▍ | 1027/7135 [55:52<5:21:28, 3.16s/it]
14%|██████████████▍ | 1028/7135 [55:55<5:22:37, 3.17s/it]
14%|██████████████▍ | 1029/7135 [55:59<5:29:38, 3.24s/it]
14%|██████████████▍ | 1030/7135 [56:02<5:33:39, 3.28s/it]
{'loss': 0.8222, 'grad_norm': 5.84375, 'learning_rate': 4.78793197046301e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 411.0, 'epoch': 1.44}
14%|██████████████▍ | 1030/7135 [56:02<5:33:39, 3.28s/it]
14%|██████████████▍ | 1031/7135 [56:05<5:30:12, 3.25s/it]
14%|██████████████▍ | 1032/7135 [56:08<5:31:53, 3.26s/it]
14%|██████████████▍ | 1033/7135 [56:12<5:33:01, 3.27s/it]
14%|██████████████▍ | 1034/7135 [56:15<5:26:39, 3.21s/it]
15%|██████████████▌ | 1035/7135 [56:18<5:17:39, 3.12s/it]
15%|██████████████▌ | 1036/7135 [56:21<5:07:23, 3.02s/it]
15%|██████████████▌ | 1037/7135 [56:24<5:23:54, 3.19s/it]
15%|██████████████▌ | 1038/7135 [56:27<5:18:05, 3.13s/it]
15%|██████████████▌ | 1039/7135 [56:30<5:22:48, 3.18s/it]
15%|██████████████▌ | 1040/7135 [56:34<5:27:48, 3.23s/it]
{'loss': 0.9784, 'grad_norm': 4.59375, 'learning_rate': 4.783409329384759e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 387.92, 'epoch': 1.46}
15%|██████████████▌ | 1040/7135 [56:34<5:27:48, 3.23s/it]
15%|██████████████▌ | 1041/7135 [56:36<5:10:46, 3.06s/it]
15%|██████████████▌ | 1042/7135 [56:40<5:24:49, 3.20s/it]
15%|██████████████▌ | 1043/7135 [56:43<5:35:19, 3.30s/it]
15%|██████████████▋ | 1044/7135 [56:47<5:50:08, 3.45s/it]
15%|██████████████▋ | 1045/7135 [56:50<5:32:44, 3.28s/it]
15%|██████████████▋ | 1046/7135 [56:53<5:32:02, 3.27s/it]
15%|██████████████▋ | 1047/7135 [56:57<5:52:50, 3.48s/it]
15%|██████████████▋ | 1048/7135 [57:01<5:47:59, 3.43s/it]
15%|██████████████▋ | 1049/7135 [57:04<5:42:54, 3.38s/it]
15%|██████████████▋ | 1050/7135 [57:07<5:35:33, 3.31s/it]
{'loss': 0.8816, 'grad_norm': 4.6875, 'learning_rate': 4.778841152336616e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 480.46, 'epoch': 1.47}
15%|██████████████▋ | 1050/7135 [57:07<5:35:33, 3.31s/it]
15%|██████████████▋ | 1051/7135 [57:10<5:25:05, 3.21s/it]
15%|██████████████▋ | 1052/7135 [57:13<5:16:15, 3.12s/it]
15%|██████████████▊ | 1053/7135 [57:16<5:05:40, 3.02s/it]
15%|██████████████▊ | 1054/7135 [57:19<5:08:28, 3.04s/it]
15%|██████████████▊ | 1055/7135 [57:23<5:28:41, 3.24s/it]
15%|██████████████▊ | 1056/7135 [57:26<5:19:30, 3.15s/it]
15%|██████████████▊ | 1057/7135 [57:29<5:29:07, 3.25s/it]
15%|██████████████▊ | 1058/7135 [57:32<5:23:01, 3.19s/it]
15%|██████████████▊ | 1059/7135 [57:35<5:08:12, 3.04s/it]
15%|██████████████▊ | 1060/7135 [57:38<5:15:29, 3.12s/it]
{'loss': 0.7413, 'grad_norm': 3.796875, 'learning_rate': 4.7742275304176115e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 350.1, 'epoch': 1.48}
15%|██████████████▊ | 1060/7135 [57:38<5:15:29, 3.12s/it]
15%|██████████████▊ | 1061/7135 [57:41<5:04:47, 3.01s/it]
15%|██████████████▉ | 1062/7135 [57:44<5:01:38, 2.98s/it]
15%|██████████████▉ | 1063/7135 [57:48<5:34:59, 3.31s/it]
15%|██████████████▉ | 1064/7135 [57:51<5:27:39, 3.24s/it]
15%|██████████████▉ | 1065/7135 [57:55<5:40:10, 3.36s/it]
15%|██████████████▉ | 1066/7135 [57:58<5:50:54, 3.47s/it]
15%|██████████████▉ | 1067/7135 [58:01<5:26:33, 3.23s/it]
15%|██████████████▉ | 1068/7135 [58:04<5:25:06, 3.22s/it]
15%|██████████████▉ | 1069/7135 [58:08<5:35:25, 3.32s/it]
15%|██████████████▉ | 1070/7135 [58:11<5:23:17, 3.20s/it]
{'loss': 0.7823, 'grad_norm': 3.65625, 'learning_rate': 4.769568555633038e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 427.84, 'epoch': 1.5}
15%|██████████████▉ | 1070/7135 [58:11<5:23:17, 3.20s/it]
15%|███████████████ | 1071/7135 [58:13<5:07:32, 3.04s/it]
15%|███████████████ | 1072/7135 [58:16<5:06:58, 3.04s/it]
15%|███████████████ | 1073/7135 [58:20<5:14:44, 3.12s/it]
15%|███████████████ | 1074/7135 [58:23<5:35:24, 3.32s/it]
15%|███████████████ | 1075/7135 [58:26<5:28:05, 3.25s/it]
15%|███████████████ | 1076/7135 [58:29<5:20:34, 3.17s/it]
15%|███████████████ | 1077/7135 [58:33<5:19:15, 3.16s/it]
15%|███████████████ | 1078/7135 [58:36<5:15:58, 3.13s/it]
15%|███████████████ | 1079/7135 [58:38<5:03:54, 3.01s/it]
15%|███████████████▏ | 1080/7135 [58:42<5:08:58, 3.06s/it]
{'loss': 0.7587, 'grad_norm': 3.640625, 'learning_rate': 4.7648643208926246e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 395.53, 'epoch': 1.51}
15%|███████████████▏ | 1080/7135 [58:42<5:08:58, 3.06s/it]
15%|███████████████▏ | 1081/7135 [58:45<5:20:30, 3.18s/it]
15%|███████████████▏ | 1082/7135 [58:49<5:33:02, 3.30s/it]
15%|███████████████▏ | 1083/7135 [58:51<5:20:11, 3.17s/it]
15%|███████████████▏ | 1084/7135 [58:54<5:13:59, 3.11s/it]
15%|███████████████▏ | 1085/7135 [58:58<5:38:52, 3.36s/it]
15%|███████████████▏ | 1086/7135 [59:02<5:37:28, 3.35s/it]
15%|███████████████▏ | 1087/7135 [59:05<5:34:10, 3.32s/it]
15%|███████████████▏ | 1088/7135 [59:08<5:26:53, 3.24s/it]
15%|███████████████▎ | 1089/7135 [59:11<5:17:50, 3.15s/it]
15%|███████████████▎ | 1090/7135 [59:15<5:36:07, 3.34s/it]
{'loss': 0.8001, 'grad_norm': 3.859375, 'learning_rate': 4.760114920008673e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 353.39, 'epoch': 1.53}
15%|███████████████▎ | 1090/7135 [59:15<5:36:07, 3.34s/it]
15%|███████████████▎ | 1091/7135 [59:18<5:29:29, 3.27s/it]
15%|███████████████▎ | 1092/7135 [59:21<5:31:00, 3.29s/it]
15%|███████████████▎ | 1093/7135 [59:24<5:18:45, 3.17s/it]
15%|███████████████▎ | 1094/7135 [59:27<5:12:04, 3.10s/it]
15%|███████████████▎ | 1095/7135 [59:30<5:13:18, 3.11s/it]
15%|███████████████▎ | 1096/7135 [59:33<4:57:11, 2.95s/it]
15%|███████████████▎ | 1097/7135 [59:36<4:57:57, 2.96s/it]
15%|███████████████▍ | 1098/7135 [59:39<4:59:08, 2.97s/it]
15%|███████████████▍ | 1099/7135 [59:42<5:10:29, 3.09s/it]
15%|███████████████▍ | 1100/7135 [59:45<5:15:25, 3.14s/it]
{'loss': 0.8068, 'grad_norm': 8.0625, 'learning_rate': 4.755320447694198e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 359.27, 'epoch': 1.54}
15%|███████████████▍ | 1100/7135 [59:45<5:15:25, 3.14s/it]
15%|███████████████▍ | 1101/7135 [59:48<5:16:21, 3.15s/it]
15%|███████████████▍ | 1102/7135 [59:52<5:20:07, 3.18s/it]
15%|███████████████▍ | 1103/7135 [59:55<5:25:54, 3.24s/it]
15%|███████████████▍ | 1104/7135 [59:59<5:57:19, 3.55s/it]
15%|███████████████▏ | 1105/7135 [1:00:02<5:37:46, 3.36s/it]
16%|███████████████▏ | 1106/7135 [1:00:06<5:38:50, 3.37s/it]
16%|███████████████▏ | 1107/7135 [1:00:09<5:28:04, 3.27s/it]
16%|███████████████▏ | 1108/7135 [1:00:12<5:21:14, 3.20s/it]
16%|███████████████▏ | 1109/7135 [1:00:16<5:39:09, 3.38s/it]
16%|███████████████▏ | 1110/7135 [1:00:19<5:32:46, 3.31s/it]
{'loss': 0.8131, 'grad_norm': 4.53125, 'learning_rate': 4.750480999561028e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 472.55, 'epoch': 1.56}
16%|███████████████▏ | 1110/7135 [1:00:19<5:32:46, 3.31s/it]
16%|███████████████▎ | 1111/7135 [1:00:23<5:52:51, 3.51s/it]
16%|███████████████▎ | 1112/7135 [1:00:27<6:21:01, 3.80s/it]
16%|███████████████▎ | 1113/7135 [1:00:30<5:59:21, 3.58s/it]
16%|███████████████▎ | 1114/7135 [1:00:33<5:46:46, 3.46s/it]
16%|███████████████▎ | 1115/7135 [1:00:37<5:48:54, 3.48s/it]
16%|███████████████▎ | 1116/7135 [1:00:40<5:40:12, 3.39s/it]
16%|███████████████▎ | 1117/7135 [1:00:44<5:48:06, 3.47s/it]
16%|███████████████▎ | 1118/7135 [1:00:47<5:42:08, 3.41s/it]
16%|███████████████▎ | 1119/7135 [1:00:50<5:42:22, 3.41s/it]
16%|███████████████▍ | 1120/7135 [1:00:54<5:42:00, 3.41s/it]
{'loss': 0.7706, 'grad_norm': 5.53125, 'learning_rate': 4.745596672117908e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 339.29, 'epoch': 1.57}
16%|███████████████▍ | 1120/7135 [1:00:54<5:42:00, 3.41s/it]
16%|███████████████▍ | 1121/7135 [1:00:57<5:42:57, 3.42s/it]
16%|███████████████▍ | 1122/7135 [1:01:01<5:44:06, 3.43s/it]
16%|███████████████▍ | 1123/7135 [1:01:04<5:39:10, 3.38s/it]
16%|███████████████▍ | 1124/7135 [1:01:08<5:45:45, 3.45s/it]
16%|███████████████▍ | 1125/7135 [1:01:11<5:27:57, 3.27s/it]
16%|███████████████▍ | 1126/7135 [1:01:14<5:44:25, 3.44s/it]
16%|███████████████▍ | 1127/7135 [1:01:18<5:37:46, 3.37s/it]
16%|███████████████▍ | 1128/7135 [1:01:21<5:32:32, 3.32s/it]
16%|███████████████▌ | 1129/7135 [1:01:24<5:35:41, 3.35s/it]
16%|███████████████▌ | 1130/7135 [1:01:27<5:24:19, 3.24s/it]
{'loss': 0.7282, 'grad_norm': 5.3125, 'learning_rate': 4.740667562768569e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.3, 'epoch': 1.58}
16%|███████████████▌ | 1130/7135 [1:01:27<5:24:19, 3.24s/it]
16%|███████████████▌ | 1131/7135 [1:01:30<5:19:18, 3.19s/it]
16%|███████████████▌ | 1132/7135 [1:01:33<5:16:25, 3.16s/it]
16%|███████████████▌ | 1133/7135 [1:01:36<5:11:10, 3.11s/it]
16%|███████████████▌ | 1134/7135 [1:01:39<5:08:17, 3.08s/it]
16%|███████████████▌ | 1135/7135 [1:01:43<5:18:03, 3.18s/it]
16%|███████████████▌ | 1136/7135 [1:01:46<5:22:05, 3.22s/it]
16%|███████████████▌ | 1137/7135 [1:01:50<5:34:27, 3.35s/it]
16%|███████████████▋ | 1138/7135 [1:01:53<5:19:25, 3.20s/it]
16%|███████████████▋ | 1139/7135 [1:01:55<5:08:17, 3.08s/it]
16%|███████████████▋ | 1140/7135 [1:01:58<4:59:28, 3.00s/it]
{'loss': 0.7958, 'grad_norm': 5.71875, 'learning_rate': 4.735693769809785e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.09, 'epoch': 1.6}
16%|███████████████▋ | 1140/7135 [1:01:58<4:59:28, 3.00s/it]
16%|███████████████▋ | 1141/7135 [1:02:01<4:59:23, 3.00s/it]
16%|███████████████▋ | 1142/7135 [1:02:05<5:14:22, 3.15s/it]
16%|███████████████▋ | 1143/7135 [1:02:08<5:21:59, 3.22s/it]
16%|███████████████▋ | 1144/7135 [1:02:11<5:22:27, 3.23s/it]
16%|███████████████▋ | 1145/7135 [1:02:14<5:17:23, 3.18s/it]
16%|███████████████▋ | 1146/7135 [1:02:18<5:16:29, 3.17s/it]
16%|███████████████▊ | 1147/7135 [1:02:21<5:16:06, 3.17s/it]
16%|███████████████▊ | 1148/7135 [1:02:24<5:14:08, 3.15s/it]
16%|███████████████▊ | 1149/7135 [1:02:27<5:11:19, 3.12s/it]
16%|███████████████▊ | 1150/7135 [1:02:30<5:14:46, 3.16s/it]
{'loss': 0.7487, 'grad_norm': 3.953125, 'learning_rate': 4.7306753924294186e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 380.82, 'epoch': 1.61}
16%|███████████████▊ | 1150/7135 [1:02:30<5:14:46, 3.16s/it]
16%|███████████████▊ | 1151/7135 [1:02:34<5:34:18, 3.35s/it]
16%|███████████████▊ | 1152/7135 [1:02:37<5:23:45, 3.25s/it]
16%|███████████████▊ | 1153/7135 [1:02:40<5:26:34, 3.28s/it]
16%|███████████████▊ | 1154/7135 [1:02:43<5:25:02, 3.26s/it]
16%|███████████████▊ | 1155/7135 [1:02:47<5:27:16, 3.28s/it]
16%|███████████████▉ | 1156/7135 [1:02:50<5:26:47, 3.28s/it]
16%|███████████████▉ | 1157/7135 [1:02:53<5:23:18, 3.24s/it]
16%|███████████████▉ | 1158/7135 [1:02:57<5:45:04, 3.46s/it]
16%|███████████████▉ | 1159/7135 [1:03:01<5:40:19, 3.42s/it]
16%|███████████████▉ | 1160/7135 [1:03:03<5:27:24, 3.29s/it]
{'loss': 0.7317, 'grad_norm': 3.84375, 'learning_rate': 4.725612530704435e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 443.05, 'epoch': 1.63}
16%|███████████████▉ | 1160/7135 [1:03:04<5:27:24, 3.29s/it]
16%|███████████████▉ | 1161/7135 [1:03:07<5:19:01, 3.20s/it]
16%|███████████████▉ | 1162/7135 [1:03:10<5:15:37, 3.17s/it]
16%|███████████████▉ | 1163/7135 [1:03:13<5:13:27, 3.15s/it]
16%|███████████████▉ | 1164/7135 [1:03:15<5:00:33, 3.02s/it]
16%|████████████████ | 1165/7135 [1:03:18<4:53:51, 2.95s/it]
16%|████████████████ | 1166/7135 [1:03:22<5:04:54, 3.06s/it]
16%|████████████████ | 1167/7135 [1:03:24<5:00:22, 3.02s/it]
16%|████████████████ | 1168/7135 [1:03:27<4:57:27, 2.99s/it]
16%|████████████████ | 1169/7135 [1:03:31<5:08:19, 3.10s/it]
16%|████████████████ | 1170/7135 [1:03:34<5:02:26, 3.04s/it]
{'loss': 0.8756, 'grad_norm': 4.53125, 'learning_rate': 4.720505285598916e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.2, 'epoch': 1.64}
16%|████████████████ | 1170/7135 [1:03:34<5:02:26, 3.04s/it]
16%|████████████████ | 1171/7135 [1:03:38<5:27:59, 3.30s/it]
16%|████████████████ | 1172/7135 [1:03:41<5:43:52, 3.46s/it]
16%|████████████████ | 1173/7135 [1:03:45<6:03:19, 3.66s/it]
16%|████████████████▏ | 1174/7135 [1:03:49<5:48:24, 3.51s/it]
16%|████████████████▏ | 1175/7135 [1:03:52<5:38:50, 3.41s/it]
16%|████████████████▏ | 1176/7135 [1:03:55<5:25:40, 3.28s/it]
16%|████████████████▏ | 1177/7135 [1:03:58<5:14:09, 3.16s/it]
17%|████████████████▏ | 1178/7135 [1:04:01<5:23:38, 3.26s/it]
17%|████████████████▏ | 1179/7135 [1:04:05<5:29:52, 3.32s/it]
17%|████████████████▏ | 1180/7135 [1:04:08<5:18:33, 3.21s/it]
{'loss': 0.8491, 'grad_norm': 4.1875, 'learning_rate': 4.715353758962035e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 519.47, 'epoch': 1.65}
17%|████████████████▏ | 1180/7135 [1:04:08<5:18:33, 3.21s/it]
17%|████████████████▏ | 1181/7135 [1:04:10<5:05:57, 3.08s/it]
17%|████████████████▏ | 1182/7135 [1:04:14<5:22:27, 3.25s/it]
17%|████████████████▏ | 1183/7135 [1:04:18<5:48:38, 3.51s/it]
17%|████████████████▎ | 1184/7135 [1:04:21<5:38:13, 3.41s/it]
17%|████████████████▎ | 1185/7135 [1:04:25<5:34:55, 3.38s/it]
17%|████████████████▎ | 1186/7135 [1:04:28<5:22:38, 3.25s/it]
17%|████████████████▎ | 1187/7135 [1:04:30<5:11:42, 3.14s/it]
17%|████████████████▎ | 1188/7135 [1:04:34<5:19:20, 3.22s/it]
17%|████████████████▎ | 1189/7135 [1:04:37<5:13:33, 3.16s/it]
17%|████████████████▎ | 1190/7135 [1:04:40<5:11:57, 3.15s/it]
{'loss': 0.8478, 'grad_norm': 4.3125, 'learning_rate': 4.710158053526036e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.79, 'epoch': 1.67}
17%|████████████████▎ | 1190/7135 [1:04:40<5:11:57, 3.15s/it]
17%|████████████████▎ | 1191/7135 [1:04:44<5:30:27, 3.34s/it]
17%|████████████████▎ | 1192/7135 [1:04:47<5:28:10, 3.31s/it]
17%|████████████████▍ | 1193/7135 [1:04:50<5:25:01, 3.28s/it]
17%|████████████████▍ | 1194/7135 [1:04:54<5:27:27, 3.31s/it]
17%|████████████████▍ | 1195/7135 [1:04:57<5:31:26, 3.35s/it]
17%|████████████████▍ | 1196/7135 [1:05:00<5:22:39, 3.26s/it]
17%|████████████████▍ | 1197/7135 [1:05:04<5:39:14, 3.43s/it]
17%|████████████████▍ | 1198/7135 [1:05:07<5:24:32, 3.28s/it]
17%|████████████████▍ | 1199/7135 [1:05:10<5:29:03, 3.33s/it]
17%|████████████████▍ | 1200/7135 [1:05:13<5:07:59, 3.11s/it]
{'loss': 0.8617, 'grad_norm': 4.34375, 'learning_rate': 4.70491827290418e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 498.08, 'epoch': 1.68}
17%|████████████████▍ | 1200/7135 [1:05:13<5:07:59, 3.11s/it]
17%|████████████████▍ | 1201/7135 [1:05:17<5:33:57, 3.38s/it]
17%|████████████████▌ | 1202/7135 [1:05:21<5:41:06, 3.45s/it]
17%|████████████████▌ | 1203/7135 [1:05:24<5:36:47, 3.41s/it]
17%|████████████████▌ | 1204/7135 [1:05:27<5:36:15, 3.40s/it]
17%|████████████████▌ | 1205/7135 [1:05:30<5:12:37, 3.16s/it]
17%|████████████████▌ | 1206/7135 [1:05:33<5:09:56, 3.14s/it]
17%|████████████████▌ | 1207/7135 [1:05:36<5:12:49, 3.17s/it]
17%|████████████████▌ | 1208/7135 [1:05:40<5:29:21, 3.33s/it]
17%|████████████████▌ | 1209/7135 [1:05:43<5:16:51, 3.21s/it]
17%|████████████████▌ | 1210/7135 [1:05:47<5:39:30, 3.44s/it]
{'loss': 0.8708, 'grad_norm': 3.390625, 'learning_rate': 4.6996345215886795e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.32, 'epoch': 1.7}
17%|████████████████▌ | 1210/7135 [1:05:47<5:39:30, 3.44s/it]
17%|████████████████▋ | 1211/7135 [1:05:50<5:28:25, 3.33s/it]
17%|████████████████▋ | 1212/7135 [1:05:53<5:27:38, 3.32s/it]
17%|████████████████▋ | 1213/7135 [1:05:56<5:15:33, 3.20s/it]
17%|████████████████▋ | 1214/7135 [1:05:59<5:01:57, 3.06s/it]
17%|████████████████▋ | 1215/7135 [1:06:03<5:25:00, 3.29s/it]
17%|████████████████▋ | 1216/7135 [1:06:06<5:23:38, 3.28s/it]
17%|████████████████▋ | 1217/7135 [1:06:09<5:22:29, 3.27s/it]
17%|████████████████▋ | 1218/7135 [1:06:12<5:10:16, 3.15s/it]
17%|████████████████▋ | 1219/7135 [1:06:15<5:09:49, 3.14s/it]
17%|████████████████▊ | 1220/7135 [1:06:18<5:12:47, 3.17s/it]
{'loss': 0.8458, 'grad_norm': 4.125, 'learning_rate': 4.694306904948615e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.93, 'epoch': 1.71}
17%|████████████████▊ | 1220/7135 [1:06:18<5:12:47, 3.17s/it]
17%|████████████████▊ | 1221/7135 [1:06:21<5:02:10, 3.07s/it]
17%|████████████████▊ | 1222/7135 [1:06:25<5:12:16, 3.17s/it]
17%|████████████████▊ | 1223/7135 [1:06:28<5:22:23, 3.27s/it]
17%|████████████████▊ | 1224/7135 [1:06:31<5:21:09, 3.26s/it]
17%|████████████████▊ | 1225/7135 [1:06:34<5:17:20, 3.22s/it]
17%|████████████████▊ | 1226/7135 [1:06:37<5:09:22, 3.14s/it]
17%|████████████████▊ | 1227/7135 [1:06:40<5:05:25, 3.10s/it]
17%|████████████████▊ | 1228/7135 [1:06:44<5:04:51, 3.10s/it]
17%|████████████████▉ | 1229/7135 [1:06:46<4:59:55, 3.05s/it]
17%|████████████████▉ | 1230/7135 [1:06:49<4:57:53, 3.03s/it]
{'loss': 0.7214, 'grad_norm': 5.0625, 'learning_rate': 4.688935529227831e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.33, 'epoch': 1.72}
17%|████████████████▉ | 1230/7135 [1:06:49<4:57:53, 3.03s/it]
17%|████████████████▉ | 1231/7135 [1:06:52<4:54:13, 2.99s/it]
17%|████████████████▉ | 1232/7135 [1:06:55<4:53:36, 2.98s/it]
17%|████████████████▉ | 1233/7135 [1:06:59<5:09:49, 3.15s/it]
17%|████████████████▉ | 1234/7135 [1:07:02<5:20:16, 3.26s/it]
17%|████████████████▉ | 1235/7135 [1:07:06<5:17:37, 3.23s/it]
17%|████████████████▉ | 1236/7135 [1:07:09<5:14:41, 3.20s/it]
17%|████████████████▉ | 1237/7135 [1:07:12<5:13:02, 3.18s/it]
17%|█████████████████ | 1238/7135 [1:07:15<5:09:29, 3.15s/it]
17%|█████████████████ | 1239/7135 [1:07:18<5:16:28, 3.22s/it]
17%|█████████████████ | 1240/7135 [1:07:21<5:12:33, 3.18s/it]
{'loss': 0.9438, 'grad_norm': 5.1875, 'learning_rate': 4.683520501542825e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.54, 'epoch': 1.74}
17%|█████████████████ | 1240/7135 [1:07:21<5:12:33, 3.18s/it]
17%|█████████████████ | 1241/7135 [1:07:25<5:21:21, 3.27s/it]
17%|█████████████████ | 1242/7135 [1:07:28<5:20:41, 3.27s/it]
17%|█████████████████ | 1243/7135 [1:07:32<5:31:35, 3.38s/it]
17%|█████████████████ | 1244/7135 [1:07:34<5:11:13, 3.17s/it]
17%|█████████████████ | 1245/7135 [1:07:38<5:18:55, 3.25s/it]
17%|█████████████████ | 1246/7135 [1:07:41<5:18:01, 3.24s/it]
17%|█████████████████▏ | 1247/7135 [1:07:44<5:19:53, 3.26s/it]
17%|█████████████████▏ | 1248/7135 [1:07:48<5:19:38, 3.26s/it]
18%|█████████████████▏ | 1249/7135 [1:07:51<5:12:19, 3.18s/it]
18%|█████████████████▏ | 1250/7135 [1:07:55<5:33:17, 3.40s/it]
{'loss': 0.8334, 'grad_norm': 1.796875, 'learning_rate': 4.678061929880602e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.2, 'epoch': 1.75}
18%|█████████████████▏ | 1250/7135 [1:07:55<5:33:17, 3.40s/it]
18%|█████████████████▏ | 1251/7135 [1:07:57<5:15:35, 3.22s/it]
18%|█████████████████▏ | 1252/7135 [1:08:00<5:08:49, 3.15s/it]
18%|█████████████████▏ | 1253/7135 [1:08:03<5:06:31, 3.13s/it]
18%|█████████████████▏ | 1254/7135 [1:08:06<5:04:33, 3.11s/it]
18%|█████████████████▏ | 1255/7135 [1:08:09<4:58:06, 3.04s/it]
18%|█████████████████▎ | 1256/7135 [1:08:12<4:57:08, 3.03s/it]
18%|█████████████████▎ | 1257/7135 [1:08:15<4:49:48, 2.96s/it]
18%|█████████████████▎ | 1258/7135 [1:08:18<5:01:10, 3.07s/it]
18%|█████████████████▎ | 1259/7135 [1:08:21<4:54:46, 3.01s/it]
18%|█████████████████▎ | 1260/7135 [1:08:24<4:52:56, 2.99s/it]
{'loss': 0.7109, 'grad_norm': 4.75, 'learning_rate': 4.672559923096526e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 339.15, 'epoch': 1.77}
18%|█████████████████▎ | 1260/7135 [1:08:24<4:52:56, 2.99s/it]
18%|█████████████████▎ | 1261/7135 [1:08:28<5:16:08, 3.23s/it]
18%|█████████████████▎ | 1262/7135 [1:08:31<5:03:20, 3.10s/it]
18%|█████████████████▎ | 1263/7135 [1:08:33<4:49:49, 2.96s/it]
18%|█████████████████▎ | 1264/7135 [1:08:37<4:54:34, 3.01s/it]
18%|█████████████████▎ | 1265/7135 [1:08:40<5:04:13, 3.11s/it]
18%|█████████████████▍ | 1266/7135 [1:08:43<5:13:34, 3.21s/it]
18%|█████████████████▍ | 1267/7135 [1:08:47<5:12:49, 3.20s/it]
18%|█████████████████▍ | 1268/7135 [1:08:50<5:12:49, 3.20s/it]
18%|█████████████████▍ | 1269/7135 [1:08:53<5:12:49, 3.20s/it]
18%|█████████████████▍ | 1270/7135 [1:08:56<4:56:35, 3.03s/it]
{'loss': 0.7063, 'grad_norm': 4.03125, 'learning_rate': 4.66701459091215e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 438.34, 'epoch': 1.78}
18%|█████████████████▍ | 1270/7135 [1:08:56<4:56:35, 3.03s/it]
18%|█████████████████▍ | 1271/7135 [1:08:59<4:55:22, 3.02s/it]
18%|█████████████████▍ | 1272/7135 [1:09:02<4:54:12, 3.01s/it]
18%|█████████████████▍ | 1273/7135 [1:09:04<4:49:49, 2.97s/it]
18%|█████████████████▍ | 1274/7135 [1:09:07<4:45:15, 2.92s/it]
18%|█████████████████▌ | 1275/7135 [1:09:11<5:18:30, 3.26s/it]
18%|█████████████████▌ | 1276/7135 [1:09:14<5:07:58, 3.15s/it]
18%|█████████████████▌ | 1277/7135 [1:09:18<5:21:19, 3.29s/it]
18%|█████████████████▌ | 1278/7135 [1:09:22<5:32:35, 3.41s/it]
18%|█████████████████▌ | 1279/7135 [1:09:25<5:26:14, 3.34s/it]
18%|█████████████████▌ | 1280/7135 [1:09:28<5:23:54, 3.32s/it]
{'loss': 0.9071, 'grad_norm': 2.4375, 'learning_rate': 4.661426043913024e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.09, 'epoch': 1.79}
18%|█████████████████▌ | 1280/7135 [1:09:28<5:23:54, 3.32s/it]
18%|█████████████████▌ | 1281/7135 [1:09:31<5:14:20, 3.22s/it]
18%|█████████████████▌ | 1282/7135 [1:09:34<4:57:59, 3.05s/it]
18%|█████████████████▌ | 1283/7135 [1:09:37<4:58:16, 3.06s/it]
18%|█████████████████▋ | 1284/7135 [1:09:40<4:55:47, 3.03s/it]
18%|█████████████████▋ | 1285/7135 [1:09:43<5:05:18, 3.13s/it]
18%|█████████████████▋ | 1286/7135 [1:09:46<4:55:38, 3.03s/it]
18%|█████████████████▋ | 1287/7135 [1:09:49<4:51:53, 2.99s/it]
18%|█████████████████▋ | 1288/7135 [1:09:52<4:55:05, 3.03s/it]
18%|█████████████████▋ | 1289/7135 [1:09:55<5:00:54, 3.09s/it]
18%|█████████████████▋ | 1290/7135 [1:09:59<5:12:35, 3.21s/it]
{'loss': 0.844, 'grad_norm': 4.96875, 'learning_rate': 4.6557943935464945e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 307.88, 'epoch': 1.81}
18%|█████████████████▋ | 1290/7135 [1:09:59<5:12:35, 3.21s/it]
18%|█████████████████▋ | 1291/7135 [1:10:01<5:04:04, 3.12s/it]
18%|█████████████████▋ | 1292/7135 [1:10:05<5:10:07, 3.18s/it]
18%|█████████████████▊ | 1293/7135 [1:10:08<5:00:58, 3.09s/it]
18%|█████████████████▊ | 1294/7135 [1:10:11<5:01:40, 3.10s/it]
18%|█████████████████▊ | 1295/7135 [1:10:14<4:54:20, 3.02s/it]
18%|█████████████████▊ | 1296/7135 [1:10:18<5:19:07, 3.28s/it]
18%|█████████████████▊ | 1297/7135 [1:10:21<5:13:24, 3.22s/it]
18%|█████████████████▊ | 1298/7135 [1:10:23<5:01:19, 3.10s/it]
18%|█████████████████▊ | 1299/7135 [1:10:27<5:19:00, 3.28s/it]
18%|█████████████████▊ | 1300/7135 [1:10:31<5:26:08, 3.35s/it]
{'loss': 0.9399, 'grad_norm': 4.1875, 'learning_rate': 4.650119752119478e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 397.71, 'epoch': 1.82}
18%|█████████████████▊ | 1300/7135 [1:10:31<5:26:08, 3.35s/it]
18%|█████████████████▊ | 1301/7135 [1:10:34<5:15:27, 3.24s/it]
18%|█████████████████▉ | 1302/7135 [1:10:37<5:07:39, 3.16s/it]
18%|█████████████████▉ | 1303/7135 [1:10:39<4:54:55, 3.03s/it]
18%|█████████████████▉ | 1304/7135 [1:10:43<5:02:45, 3.12s/it]
18%|█████████████████▉ | 1305/7135 [1:10:46<5:18:01, 3.27s/it]
18%|█████████████████▉ | 1306/7135 [1:10:49<5:13:49, 3.23s/it]
18%|█████████████████▉ | 1307/7135 [1:10:52<5:05:39, 3.15s/it]
18%|█████████████████▉ | 1308/7135 [1:10:55<5:00:05, 3.09s/it]
18%|█████████████████▉ | 1309/7135 [1:10:59<5:07:49, 3.17s/it]
18%|█████████████████▉ | 1310/7135 [1:11:02<5:07:19, 3.17s/it]
{'loss': 0.7662, 'grad_norm': 4.53125, 'learning_rate': 4.644402232796222e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.88, 'epoch': 1.84}
18%|█████████████████▉ | 1310/7135 [1:11:02<5:07:19, 3.17s/it]
18%|██████████████████ | 1311/7135 [1:11:05<5:10:06, 3.19s/it]
18%|██████████████████ | 1312/7135 [1:11:08<5:09:52, 3.19s/it]
18%|██████████████████ | 1313/7135 [1:11:12<5:10:57, 3.20s/it]
18%|██████████████████ | 1314/7135 [1:11:16<5:33:31, 3.44s/it]
18%|██████████████████ | 1315/7135 [1:11:19<5:22:47, 3.33s/it]
18%|██████████████████ | 1316/7135 [1:11:21<5:03:22, 3.13s/it]
18%|██████████████████ | 1317/7135 [1:11:25<5:09:02, 3.19s/it]
18%|██████████████████ | 1318/7135 [1:11:28<5:16:22, 3.26s/it]
18%|██████████████████ | 1319/7135 [1:11:31<5:16:49, 3.27s/it]
19%|██████████████████▏ | 1320/7135 [1:11:35<5:14:48, 3.25s/it]
{'loss': 0.7825, 'grad_norm': 6.59375, 'learning_rate': 4.638641949596052e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.79, 'epoch': 1.85}
19%|██████████████████▏ | 1320/7135 [1:11:35<5:14:48, 3.25s/it]
19%|██████████████████▏ | 1321/7135 [1:11:37<4:57:12, 3.07s/it]
19%|██████████████████▏ | 1322/7135 [1:11:40<4:58:37, 3.08s/it]
19%|██████████████████▏ | 1323/7135 [1:11:43<4:58:02, 3.08s/it]
19%|██████████████████▏ | 1324/7135 [1:11:46<5:00:02, 3.10s/it]
19%|██████████████████▏ | 1325/7135 [1:11:49<4:50:53, 3.00s/it]
19%|██████████████████▏ | 1326/7135 [1:11:53<5:03:50, 3.14s/it]
19%|██████████████████▏ | 1327/7135 [1:11:56<4:58:12, 3.08s/it]
19%|██████████████████▏ | 1328/7135 [1:11:59<4:58:51, 3.09s/it]
19%|██████████████████▎ | 1329/7135 [1:12:02<5:02:02, 3.12s/it]
19%|██████████████████▎ | 1330/7135 [1:12:05<5:09:15, 3.20s/it]
{'loss': 0.7312, 'grad_norm': 3.578125, 'learning_rate': 4.632839017391093e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.99, 'epoch': 1.86}
19%|██████████████████▎ | 1330/7135 [1:12:05<5:09:15, 3.20s/it]
19%|██████████████████▎ | 1331/7135 [1:12:09<5:13:07, 3.24s/it]
19%|██████████████████▎ | 1332/7135 [1:12:13<5:30:53, 3.42s/it]
19%|██████████████████▎ | 1333/7135 [1:12:15<5:17:36, 3.28s/it]
19%|██████████████████▎ | 1334/7135 [1:12:18<5:06:23, 3.17s/it]
19%|██████████████████▎ | 1335/7135 [1:12:21<4:50:56, 3.01s/it]
19%|██████████████████▎ | 1336/7135 [1:12:24<4:59:01, 3.09s/it]
19%|██████████████████▎ | 1337/7135 [1:12:28<5:11:41, 3.23s/it]
19%|██████████████████▍ | 1338/7135 [1:12:31<4:58:26, 3.09s/it]
19%|██████████████████▍ | 1339/7135 [1:12:33<4:47:29, 2.98s/it]
19%|██████████████████▍ | 1340/7135 [1:12:37<5:07:42, 3.19s/it]
{'loss': 0.7621, 'grad_norm': 4.28125, 'learning_rate': 4.62699355190398e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.92, 'epoch': 1.88}
19%|██████████████████▍ | 1340/7135 [1:12:37<5:07:42, 3.19s/it]
19%|██████████████████▍ | 1341/7135 [1:12:40<5:08:09, 3.19s/it]
19%|██████████████████▍ | 1342/7135 [1:12:44<5:14:36, 3.26s/it]
19%|██████████████████▍ | 1343/7135 [1:12:47<5:13:43, 3.25s/it]
19%|██████████████████▍ | 1344/7135 [1:12:50<4:58:00, 3.09s/it]
19%|██████████████████▍ | 1345/7135 [1:12:53<5:07:12, 3.18s/it]
19%|██████████████████▍ | 1346/7135 [1:12:56<5:16:25, 3.28s/it]
19%|██████████████████▌ | 1347/7135 [1:12:59<4:57:16, 3.08s/it]
19%|██████████████████▌ | 1348/7135 [1:13:03<5:06:47, 3.18s/it]
19%|██████████████████▌ | 1349/7135 [1:13:06<5:12:23, 3.24s/it]
19%|██████████████████▌ | 1350/7135 [1:13:09<5:05:03, 3.16s/it]
{'loss': 0.7611, 'grad_norm': 5.46875, 'learning_rate': 4.621105669705551e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 366.75, 'epoch': 1.89}
19%|██████████████████▌ | 1350/7135 [1:13:09<5:05:03, 3.16s/it]
19%|██████████████████▌ | 1351/7135 [1:13:12<5:14:48, 3.27s/it]
19%|██████████████████▌ | 1352/7135 [1:13:15<5:08:35, 3.20s/it]
19%|██████████████████▌ | 1353/7135 [1:13:19<5:12:15, 3.24s/it]
19%|██████████████████▌ | 1354/7135 [1:13:22<5:08:53, 3.21s/it]
19%|██████████████████▌ | 1355/7135 [1:13:25<5:09:48, 3.22s/it]
19%|██████████████████▌ | 1356/7135 [1:13:28<5:04:04, 3.16s/it]
19%|██████████████████▋ | 1357/7135 [1:13:32<5:16:23, 3.29s/it]
19%|██████████████████▋ | 1358/7135 [1:13:35<5:14:33, 3.27s/it]
19%|██████████████████▋ | 1359/7135 [1:13:38<4:57:03, 3.09s/it]
19%|██████████████████▋ | 1360/7135 [1:13:41<5:03:34, 3.15s/it]
{'loss': 0.8158, 'grad_norm': 5.3125, 'learning_rate': 4.615175488212524e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 413.54, 'epoch': 1.91}
19%|██████████████████▋ | 1360/7135 [1:13:41<5:03:34, 3.15s/it]
19%|██████████████████▋ | 1361/7135 [1:13:44<5:01:26, 3.13s/it]
19%|██████████████████▋ | 1362/7135 [1:13:47<5:03:48, 3.16s/it]
19%|██████████████████▋ | 1363/7135 [1:13:51<5:12:28, 3.25s/it]
19%|██████████████████▋ | 1364/7135 [1:13:54<5:15:19, 3.28s/it]
19%|██████████████████▋ | 1365/7135 [1:13:58<5:26:30, 3.40s/it]
19%|██████████████████▊ | 1366/7135 [1:14:01<5:30:08, 3.43s/it]
19%|██████████████████▊ | 1367/7135 [1:14:04<5:24:36, 3.38s/it]
19%|██████████████████▊ | 1368/7135 [1:14:08<5:16:12, 3.29s/it]
19%|██████████████████▊ | 1369/7135 [1:14:10<5:02:28, 3.15s/it]
19%|██████████████████▊ | 1370/7135 [1:14:13<4:51:59, 3.04s/it]
{'loss': 0.7832, 'grad_norm': 5.71875, 'learning_rate': 4.609203125685152e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 435.02, 'epoch': 1.92}
19%|██████████████████▊ | 1370/7135 [1:14:13<4:51:59, 3.04s/it]
19%|██████████████████▊ | 1371/7135 [1:14:16<5:00:36, 3.13s/it]
19%|██████████████████▊ | 1372/7135 [1:14:19<4:53:39, 3.06s/it]
19%|██████████████████▊ | 1373/7135 [1:14:22<4:48:29, 3.00s/it]
19%|██████████████████▊ | 1374/7135 [1:14:25<4:51:24, 3.03s/it]
19%|██████████████████▉ | 1375/7135 [1:14:28<4:53:10, 3.05s/it]
19%|██████████████████▉ | 1376/7135 [1:14:31<4:45:58, 2.98s/it]
19%|██████████████████▉ | 1377/7135 [1:14:34<4:47:30, 3.00s/it]
19%|██████████████████▉ | 1378/7135 [1:14:37<4:44:04, 2.96s/it]
19%|██████████████████▉ | 1379/7135 [1:14:40<4:34:22, 2.86s/it]
19%|██████████████████▉ | 1380/7135 [1:14:43<4:35:08, 2.87s/it]
{'loss': 0.8216, 'grad_norm': 4.375, 'learning_rate': 4.6031887012248676e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 398.88, 'epoch': 1.93}
19%|██████████████████▉ | 1380/7135 [1:14:43<4:35:08, 2.87s/it]
19%|██████████████████▉ | 1381/7135 [1:14:46<4:37:33, 2.89s/it]
19%|██████████████████▉ | 1382/7135 [1:14:48<4:32:42, 2.84s/it]
19%|██████████████████▉ | 1383/7135 [1:14:52<4:46:22, 2.99s/it]
19%|███████████████████ | 1384/7135 [1:14:55<4:45:19, 2.98s/it]
19%|███████████████████ | 1385/7135 [1:14:58<4:52:37, 3.05s/it]
19%|███████████████████ | 1386/7135 [1:15:01<5:02:37, 3.16s/it]
19%|███████████████████ | 1387/7135 [1:15:04<4:50:29, 3.03s/it]
19%|███████████████████ | 1388/7135 [1:15:07<4:52:02, 3.05s/it]
19%|███████████████████ | 1389/7135 [1:15:10<4:58:44, 3.12s/it]
19%|███████████████████ | 1390/7135 [1:15:14<4:59:36, 3.13s/it]
{'loss': 0.6898, 'grad_norm': 5.0, 'learning_rate': 4.597132334771903e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 332.36, 'epoch': 1.95}
19%|███████████████████ | 1390/7135 [1:15:14<4:59:36, 3.13s/it]
19%|███████████████████ | 1391/7135 [1:15:16<4:52:31, 3.06s/it]
20%|███████████████████ | 1392/7135 [1:15:19<4:49:11, 3.02s/it]
20%|███████████████████▏ | 1393/7135 [1:15:22<4:50:25, 3.03s/it]
20%|███████████████████▏ | 1394/7135 [1:15:26<5:09:33, 3.24s/it]
20%|███████████████████▏ | 1395/7135 [1:15:30<5:14:13, 3.28s/it]
20%|███████████████████▏ | 1396/7135 [1:15:33<5:24:44, 3.40s/it]
20%|███████████████████▏ | 1397/7135 [1:15:36<5:16:39, 3.31s/it]
20%|███████████████████▏ | 1398/7135 [1:15:40<5:32:02, 3.47s/it]
20%|███████████████████▏ | 1399/7135 [1:15:44<5:28:18, 3.43s/it]
20%|███████████████████▏ | 1400/7135 [1:15:48<5:44:26, 3.60s/it]
{'loss': 0.7015, 'grad_norm': 4.75, 'learning_rate': 4.591034147102908e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 334.61, 'epoch': 1.96}
20%|███████████████████▏ | 1400/7135 [1:15:48<5:44:26, 3.60s/it]
20%|███████████████████▏ | 1401/7135 [1:15:51<5:27:43, 3.43s/it]
20%|███████████████████▎ | 1402/7135 [1:15:54<5:14:36, 3.29s/it]
20%|███████████████████▎ | 1403/7135 [1:15:56<5:01:36, 3.16s/it]
20%|███████████████████▎ | 1404/7135 [1:16:00<5:21:35, 3.37s/it]
20%|███████████████████▎ | 1405/7135 [1:16:04<5:28:57, 3.44s/it]
20%|███████████████████▎ | 1406/7135 [1:16:07<5:26:16, 3.42s/it]
20%|███████████████████▎ | 1407/7135 [1:16:11<5:27:34, 3.43s/it]
20%|███████████████████▎ | 1408/7135 [1:16:14<5:23:58, 3.39s/it]
20%|███████████████████▎ | 1409/7135 [1:16:17<5:07:00, 3.22s/it]
20%|███████████████████▎ | 1410/7135 [1:16:20<4:56:35, 3.11s/it]
{'loss': 0.7443, 'grad_norm': 5.46875, 'learning_rate': 4.584894259828528e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 449.09, 'epoch': 1.98}
20%|███████████████████▎ | 1410/7135 [1:16:20<4:56:35, 3.11s/it]
20%|███████████████████▍ | 1411/7135 [1:16:23<4:50:37, 3.05s/it]
20%|███████████████████▍ | 1412/7135 [1:16:26<4:58:20, 3.13s/it]
20%|███████████████████▍ | 1413/7135 [1:16:29<5:04:17, 3.19s/it]
20%|███████████████████▍ | 1414/7135 [1:16:32<5:04:32, 3.19s/it]
20%|███████████████████▍ | 1415/7135 [1:16:36<5:07:05, 3.22s/it]
20%|███████████████████▍ | 1416/7135 [1:16:39<5:02:51, 3.18s/it]
20%|███████████████████▍ | 1417/7135 [1:16:41<4:49:09, 3.03s/it]
20%|███████████████████▍ | 1418/7135 [1:16:44<4:46:13, 3.00s/it]
20%|███████████████████▍ | 1419/7135 [1:16:48<5:02:55, 3.18s/it]
20%|███████████████████▌ | 1420/7135 [1:16:51<4:58:22, 3.13s/it]
{'loss': 0.8043, 'grad_norm': 4.75, 'learning_rate': 4.578712795390992e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.05, 'epoch': 1.99}
20%|███████████████████▌ | 1420/7135 [1:16:51<4:58:22, 3.13s/it]
20%|███████████████████▌ | 1421/7135 [1:16:54<4:53:39, 3.08s/it]
20%|███████████████████▌ | 1422/7135 [1:16:58<5:21:43, 3.38s/it]
20%|███████████████████▌ | 1423/7135 [1:17:01<5:15:01, 3.31s/it]
20%|███████████████████▌ | 1424/7135 [1:17:04<5:10:34, 3.26s/it]
20%|███████████████████▌ | 1425/7135 [1:17:07<5:01:47, 3.17s/it]
20%|███████████████████▌ | 1426/7135 [1:17:10<4:54:41, 3.10s/it]
20%|███████████████████▌ | 1427/7135 [1:17:14<5:07:30, 3.23s/it]
20%|███████████████████▌ | 1428/7135 [1:17:15<4:18:28, 2.72s/it][2025-12-23 15:41:21,413] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-1428
20%|███████████████████▍ | 1429/7135 [1:18:22<34:48:47, 21.96s/it]
20%|███████████████████▍ | 1430/7135 [1:18:25<25:33:17, 16.13s/it]
{'loss': 0.7464, 'grad_norm': 4.78125, 'learning_rate': 4.57248987706166e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 473.94, 'epoch': 2.0}
20%|███████████████████▍ | 1430/7135 [1:18:25<25:33:17, 16.13s/it]
20%|███████████████████▍ | 1431/7135 [1:18:28<19:23:05, 12.23s/it]
20%|███████████████████▍ | 1432/7135 [1:18:31<15:01:39, 9.49s/it]
20%|███████████████████▍ | 1433/7135 [1:18:34<12:00:49, 7.58s/it]
20%|███████████████████▋ | 1434/7135 [1:18:37<9:58:55, 6.30s/it]
20%|███████████████████▋ | 1435/7135 [1:18:40<8:19:39, 5.26s/it]
20%|███████████████████▋ | 1436/7135 [1:18:44<7:31:26, 4.75s/it]
20%|███████████████████▋ | 1437/7135 [1:18:47<6:41:32, 4.23s/it]
20%|███████████████████▊ | 1438/7135 [1:18:50<6:07:20, 3.87s/it]
20%|███████████████████▊ | 1439/7135 [1:18:53<5:48:53, 3.68s/it]
20%|███████████████████▊ | 1440/7135 [1:18:56<5:35:12, 3.53s/it]
{'loss': 0.6933, 'grad_norm': 4.8125, 'learning_rate': 4.566225628938573e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 393.08, 'epoch': 2.02}
20%|███████████████████▊ | 1440/7135 [1:18:56<5:35:12, 3.53s/it]
20%|███████████████████▊ | 1441/7135 [1:19:00<5:30:07, 3.48s/it]
20%|███████████████████▊ | 1442/7135 [1:19:02<5:13:38, 3.31s/it]
20%|███████████████████▊ | 1443/7135 [1:19:06<5:13:45, 3.31s/it]
20%|███████████████████▊ | 1444/7135 [1:19:09<5:12:16, 3.29s/it]
20%|███████████████████▊ | 1445/7135 [1:19:13<5:24:19, 3.42s/it]
20%|███████████████████▊ | 1446/7135 [1:19:16<5:23:44, 3.41s/it]
20%|███████████████████▊ | 1447/7135 [1:19:20<5:24:36, 3.42s/it]
20%|███████████████████▉ | 1448/7135 [1:19:23<5:13:48, 3.31s/it]
20%|███████████████████▉ | 1449/7135 [1:19:26<5:13:37, 3.31s/it]
20%|███████████████████▉ | 1450/7135 [1:19:29<5:20:51, 3.39s/it]
{'loss': 0.7979, 'grad_norm': 5.4375, 'learning_rate': 4.5599201759439735e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.92, 'epoch': 2.03}
20%|███████████████████▉ | 1450/7135 [1:19:30<5:20:51, 3.39s/it]
20%|███████████████████▉ | 1451/7135 [1:19:34<5:45:44, 3.65s/it]
20%|███████████████████▉ | 1452/7135 [1:19:37<5:31:46, 3.50s/it]
20%|███████████████████▉ | 1453/7135 [1:19:40<5:19:05, 3.37s/it]
20%|███████████████████▉ | 1454/7135 [1:19:43<5:07:38, 3.25s/it]
20%|███████████████████▉ | 1455/7135 [1:19:47<5:26:20, 3.45s/it]
20%|███████████████████▉ | 1456/7135 [1:19:50<5:10:49, 3.28s/it]
20%|████████████████████ | 1457/7135 [1:19:53<5:01:23, 3.18s/it]
20%|████████████████████ | 1458/7135 [1:19:56<5:18:14, 3.36s/it]
20%|████████████████████ | 1459/7135 [1:19:59<5:07:08, 3.25s/it]
20%|████████████████████ | 1460/7135 [1:20:02<4:52:16, 3.09s/it]
{'loss': 0.9823, 'grad_norm': 5.5625, 'learning_rate': 4.553573643821814e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 454.99, 'epoch': 2.04}
20%|████████████████████ | 1460/7135 [1:20:02<4:52:16, 3.09s/it]
20%|████████████████████ | 1461/7135 [1:20:05<4:55:01, 3.12s/it]
20%|████████████████████ | 1462/7135 [1:20:09<5:05:37, 3.23s/it]
21%|████████████████████ | 1463/7135 [1:20:12<5:11:24, 3.29s/it]
21%|████████████████████ | 1464/7135 [1:20:15<5:05:42, 3.23s/it]
21%|████████████████████ | 1465/7135 [1:20:20<5:34:17, 3.54s/it]
21%|████████████████████▏ | 1466/7135 [1:20:23<5:16:35, 3.35s/it]
21%|████████████████████▏ | 1467/7135 [1:20:26<5:14:01, 3.32s/it]
21%|████████████████████▏ | 1468/7135 [1:20:29<5:07:39, 3.26s/it]
21%|████████████████████▏ | 1469/7135 [1:20:32<5:01:15, 3.19s/it]
21%|████████████████████▏ | 1470/7135 [1:20:35<5:05:50, 3.24s/it]
{'loss': 0.7462, 'grad_norm': 4.15625, 'learning_rate': 4.547186159135256e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 338.81, 'epoch': 2.06}
21%|████████████████████▏ | 1470/7135 [1:20:35<5:05:50, 3.24s/it]
21%|████████████████████▏ | 1471/7135 [1:20:38<5:03:36, 3.22s/it]
21%|████████████████████▏ | 1472/7135 [1:20:41<4:52:50, 3.10s/it]
21%|████████████████████▏ | 1473/7135 [1:20:44<4:47:05, 3.04s/it]
21%|████████████████████▏ | 1474/7135 [1:20:47<4:43:25, 3.00s/it]
21%|████████████████████▎ | 1475/7135 [1:20:50<4:47:58, 3.05s/it]
21%|████████████████████▎ | 1476/7135 [1:20:53<4:42:48, 3.00s/it]
21%|████████████████████▎ | 1477/7135 [1:20:57<4:56:04, 3.14s/it]
21%|████████████████████▎ | 1478/7135 [1:21:00<5:09:55, 3.29s/it]
21%|████████████████████▎ | 1479/7135 [1:21:03<4:53:40, 3.12s/it]
21%|████████████████████▎ | 1480/7135 [1:21:06<4:48:24, 3.06s/it]
{'loss': 0.8392, 'grad_norm': 5.03125, 'learning_rate': 4.540757849264133e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.06, 'epoch': 2.07}
21%|████████████████████▎ | 1480/7135 [1:21:06<4:48:24, 3.06s/it]
21%|████████████████████▎ | 1481/7135 [1:21:09<4:44:02, 3.01s/it]
21%|████████████████████▎ | 1482/7135 [1:21:12<4:43:10, 3.01s/it]
21%|████████████████████▎ | 1483/7135 [1:21:15<4:59:02, 3.17s/it]
21%|████████████████████▍ | 1484/7135 [1:21:19<5:17:41, 3.37s/it]
21%|████████████████████▍ | 1485/7135 [1:21:22<4:56:55, 3.15s/it]
21%|████████████████████▍ | 1486/7135 [1:21:25<4:54:02, 3.12s/it]
21%|████████████████████▍ | 1487/7135 [1:21:28<4:49:24, 3.07s/it]
21%|████████████████████▍ | 1488/7135 [1:21:31<4:52:27, 3.11s/it]
21%|████████████████████▍ | 1489/7135 [1:21:34<4:55:03, 3.14s/it]
21%|████████████████████▍ | 1490/7135 [1:21:38<5:00:56, 3.20s/it]
{'loss': 0.6367, 'grad_norm': 4.6875, 'learning_rate': 4.534288842402427e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.68, 'epoch': 2.09}
21%|████████████████████▍ | 1490/7135 [1:21:38<5:00:56, 3.20s/it]
21%|████████████████████▍ | 1491/7135 [1:21:41<5:03:34, 3.23s/it]
21%|████████████████████▍ | 1492/7135 [1:21:44<5:01:04, 3.20s/it]
21%|████████████████████▌ | 1493/7135 [1:21:48<5:23:38, 3.44s/it]
21%|████████████████████▌ | 1494/7135 [1:21:52<5:27:11, 3.48s/it]
21%|████████████████████▌ | 1495/7135 [1:21:55<5:18:53, 3.39s/it]
21%|████████████████████▌ | 1496/7135 [1:21:58<5:18:25, 3.39s/it]
21%|████████████████████▌ | 1497/7135 [1:22:01<5:16:55, 3.37s/it]
21%|████████████████████▌ | 1498/7135 [1:22:05<5:08:12, 3.28s/it]
21%|████████████████████▌ | 1499/7135 [1:22:08<5:06:09, 3.26s/it]
21%|████████████████████▌ | 1500/7135 [1:22:11<5:16:16, 3.37s/it]
{'loss': 0.6855, 'grad_norm': 2.703125, 'learning_rate': 4.5277792675556955e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 420.29, 'epoch': 2.1}
21%|████████████████████▌ | 1500/7135 [1:22:11<5:16:16, 3.37s/it]
21%|████████████████████▌ | 1501/7135 [1:22:15<5:10:28, 3.31s/it]
21%|████████████████████▋ | 1502/7135 [1:22:17<4:56:53, 3.16s/it]
21%|████████████████████▋ | 1503/7135 [1:22:21<4:57:50, 3.17s/it]
21%|████████████████████▋ | 1504/7135 [1:22:24<5:11:33, 3.32s/it]
21%|████████████████████▋ | 1505/7135 [1:22:28<5:18:46, 3.40s/it]
21%|████████████████████▋ | 1506/7135 [1:22:31<5:13:19, 3.34s/it]
21%|████████████████████▋ | 1507/7135 [1:22:34<5:10:28, 3.31s/it]
21%|████████████████████▋ | 1508/7135 [1:22:38<5:14:12, 3.35s/it]
21%|████████████████████▋ | 1509/7135 [1:22:41<5:07:01, 3.27s/it]
21%|████████████████████▋ | 1510/7135 [1:22:44<4:56:08, 3.16s/it]
{'loss': 0.7938, 'grad_norm': 4.5625, 'learning_rate': 4.521229254538512e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.11, 'epoch': 2.11}
21%|████████████████████▋ | 1510/7135 [1:22:44<4:56:08, 3.16s/it]
21%|████████████████████▊ | 1511/7135 [1:22:46<4:42:06, 3.01s/it]
21%|████████████████████▊ | 1512/7135 [1:22:50<5:01:21, 3.22s/it]
21%|████████████████████▊ | 1513/7135 [1:22:53<5:02:39, 3.23s/it]
21%|████████████████████▊ | 1514/7135 [1:22:56<4:55:22, 3.15s/it]
21%|████████████████████▊ | 1515/7135 [1:23:00<5:18:27, 3.40s/it]
21%|████████████████████▊ | 1516/7135 [1:23:03<4:58:44, 3.19s/it]
21%|████████████████████▊ | 1517/7135 [1:23:06<5:06:13, 3.27s/it]
21%|████████████████████▊ | 1518/7135 [1:23:10<5:03:19, 3.24s/it]
21%|████████████████████▊ | 1519/7135 [1:23:12<4:44:31, 3.04s/it]
21%|████████████████████▉ | 1520/7135 [1:23:16<4:54:15, 3.14s/it]
{'loss': 0.7435, 'grad_norm': 4.96875, 'learning_rate': 4.514638933971871e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 409.78, 'epoch': 2.13}
21%|████████████████████▉ | 1520/7135 [1:23:16<4:54:15, 3.14s/it]
21%|████████████████████▉ | 1521/7135 [1:23:19<5:06:58, 3.28s/it]
21%|████████████████████▉ | 1522/7135 [1:23:22<4:55:18, 3.16s/it]
21%|████████████████████▉ | 1523/7135 [1:23:26<5:04:14, 3.25s/it]
21%|████████████████████▉ | 1524/7135 [1:23:29<4:57:03, 3.18s/it]
21%|████████████████████▉ | 1525/7135 [1:23:32<4:57:02, 3.18s/it]
21%|████████████████████▉ | 1526/7135 [1:23:35<5:03:17, 3.24s/it]
21%|████████████████████▉ | 1527/7135 [1:23:39<5:08:12, 3.30s/it]
21%|████████████████████▉ | 1528/7135 [1:23:42<5:02:56, 3.24s/it]
21%|█████████████████████ | 1529/7135 [1:23:44<4:50:11, 3.11s/it]
21%|█████████████████████ | 1530/7135 [1:23:48<4:56:18, 3.17s/it]
{'loss': 0.8898, 'grad_norm': 5.28125, 'learning_rate': 4.50800843728058e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 395.81, 'epoch': 2.14}
21%|█████████████████████ | 1530/7135 [1:23:48<4:56:18, 3.17s/it]
21%|█████████████████████ | 1531/7135 [1:23:51<4:58:25, 3.20s/it]
21%|█████████████████████ | 1532/7135 [1:23:54<4:48:18, 3.09s/it]
21%|█████████████████████ | 1533/7135 [1:23:57<4:58:33, 3.20s/it]
21%|█████████████████████ | 1534/7135 [1:24:00<4:55:19, 3.16s/it]
22%|█████████████████████ | 1535/7135 [1:24:03<4:41:45, 3.02s/it]
22%|█████████████████████ | 1536/7135 [1:24:07<5:01:08, 3.23s/it]
22%|█████████████████████ | 1537/7135 [1:24:10<4:49:35, 3.10s/it]
22%|█████████████████████ | 1538/7135 [1:24:13<5:06:34, 3.29s/it]
22%|█████████████████████▏ | 1539/7135 [1:24:16<4:54:49, 3.16s/it]
22%|█████████████████████▏ | 1540/7135 [1:24:19<4:51:51, 3.13s/it]
{'loss': 0.8048, 'grad_norm': 6.34375, 'learning_rate': 4.501337896690649e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 406.56, 'epoch': 2.16}
22%|█████████████████████▏ | 1540/7135 [1:24:19<4:51:51, 3.13s/it]
22%|█████████████████████▏ | 1541/7135 [1:24:22<4:49:50, 3.11s/it]
22%|█████████████████████▏ | 1542/7135 [1:24:25<4:44:44, 3.05s/it]
22%|█████████████████████▏ | 1543/7135 [1:24:29<4:54:20, 3.16s/it]
22%|█████████████████████▏ | 1544/7135 [1:24:32<4:48:47, 3.10s/it]
22%|█████████████████████▏ | 1545/7135 [1:24:34<4:39:59, 3.01s/it]
22%|█████████████████████▏ | 1546/7135 [1:24:38<4:47:55, 3.09s/it]
22%|█████████████████████▏ | 1547/7135 [1:24:41<4:52:41, 3.14s/it]
22%|█████████████████████▎ | 1548/7135 [1:24:45<5:16:34, 3.40s/it]
22%|█████████████████████▎ | 1549/7135 [1:24:48<5:04:34, 3.27s/it]
22%|█████████████████████▎ | 1550/7135 [1:24:51<5:08:48, 3.32s/it]
{'loss': 0.9798, 'grad_norm': 3.96875, 'learning_rate': 4.4946274452266445e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.79, 'epoch': 2.17}
22%|█████████████████████▎ | 1550/7135 [1:24:51<5:08:48, 3.32s/it]
22%|█████████████████████▎ | 1551/7135 [1:24:54<5:03:40, 3.26s/it]
22%|█████████████████████▎ | 1552/7135 [1:24:58<5:10:27, 3.34s/it]
22%|█████████████████████▎ | 1553/7135 [1:25:01<4:51:36, 3.13s/it]
22%|█████████████████████▎ | 1554/7135 [1:25:04<4:45:47, 3.07s/it]
22%|█████████████████████▎ | 1555/7135 [1:25:07<4:47:26, 3.09s/it]
22%|█████████████████████▎ | 1556/7135 [1:25:10<4:52:13, 3.14s/it]
22%|█████████████████████▍ | 1557/7135 [1:25:13<4:40:40, 3.02s/it]
22%|█████████████████████▍ | 1558/7135 [1:25:16<4:37:36, 2.99s/it]
22%|█████████████████████▍ | 1559/7135 [1:25:19<4:59:41, 3.22s/it]
22%|█████████████████████▍ | 1560/7135 [1:25:22<4:52:01, 3.14s/it]
{'loss': 0.6531, 'grad_norm': 4.4375, 'learning_rate': 4.487877216709037e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 396.97, 'epoch': 2.19}
22%|█████████████████████▍ | 1560/7135 [1:25:22<4:52:01, 3.14s/it]
22%|█████████████████████▍ | 1561/7135 [1:25:25<4:46:49, 3.09s/it]
22%|█████████████████████▍ | 1562/7135 [1:25:29<5:05:15, 3.29s/it]
22%|█████████████████████▍ | 1563/7135 [1:25:32<5:03:04, 3.26s/it]
22%|█████████████████████▍ | 1564/7135 [1:25:35<4:57:24, 3.20s/it]
22%|█████████████████████▍ | 1565/7135 [1:25:38<4:54:17, 3.17s/it]
22%|█████████████████████▌ | 1566/7135 [1:25:41<4:39:57, 3.02s/it]
22%|█████████████████████▌ | 1567/7135 [1:25:44<4:41:10, 3.03s/it]
22%|█████████████████████▌ | 1568/7135 [1:25:47<4:32:09, 2.93s/it]
22%|█████████████████████▌ | 1569/7135 [1:25:50<4:41:42, 3.04s/it]
22%|█████████████████████▌ | 1570/7135 [1:25:53<4:36:32, 2.98s/it]
{'loss': 0.9126, 'grad_norm': 4.875, 'learning_rate': 4.481087345751537e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.51, 'epoch': 2.2}
22%|█████████████████████▌ | 1570/7135 [1:25:53<4:36:32, 2.98s/it]
22%|█████████████████████▌ | 1571/7135 [1:25:56<4:47:54, 3.10s/it]
22%|█████████████████████▌ | 1572/7135 [1:25:59<4:41:10, 3.03s/it]
22%|█████████████████████▌ | 1573/7135 [1:26:02<4:41:21, 3.04s/it]
22%|█████████████████████▌ | 1574/7135 [1:26:05<4:43:51, 3.06s/it]
22%|█████████████████████▋ | 1575/7135 [1:26:09<4:47:17, 3.10s/it]
22%|█████████████████████▋ | 1576/7135 [1:26:11<4:42:24, 3.05s/it]
22%|█████████████████████▋ | 1577/7135 [1:26:15<4:46:53, 3.10s/it]
22%|█████████████████████▋ | 1578/7135 [1:26:18<4:52:58, 3.16s/it]
22%|█████████████████████▋ | 1579/7135 [1:26:22<5:26:00, 3.52s/it]
22%|█████████████████████▋ | 1580/7135 [1:26:26<5:19:14, 3.45s/it]
{'loss': 0.8105, 'grad_norm': 4.65625, 'learning_rate': 4.474257967758411e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 393.4, 'epoch': 2.21}
22%|█████████████████████▋ | 1580/7135 [1:26:26<5:19:14, 3.45s/it]
22%|█████████████████████▋ | 1581/7135 [1:26:29<5:11:17, 3.36s/it]
22%|█████████████████████▋ | 1582/7135 [1:26:32<4:55:02, 3.19s/it]
22%|█████████████████████▋ | 1583/7135 [1:26:35<4:54:50, 3.19s/it]
22%|█████████████████████▊ | 1584/7135 [1:26:38<4:53:51, 3.18s/it]
22%|█████████████████████▊ | 1585/7135 [1:26:41<4:43:30, 3.06s/it]
22%|█████████████████████▊ | 1586/7135 [1:26:45<5:09:42, 3.35s/it]
22%|█████████████████████▊ | 1587/7135 [1:26:48<5:20:35, 3.47s/it]
22%|█████████████████████▊ | 1588/7135 [1:26:52<5:09:13, 3.34s/it]
22%|█████████████████████▊ | 1589/7135 [1:26:55<5:03:46, 3.29s/it]
22%|█████████████████████▊ | 1590/7135 [1:26:58<5:07:44, 3.33s/it]
{'loss': 0.7652, 'grad_norm': 3.640625, 'learning_rate': 4.467389218921773e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.48, 'epoch': 2.23}
22%|█████████████████████▊ | 1590/7135 [1:26:58<5:07:44, 3.33s/it]
22%|█████████████████████▊ | 1591/7135 [1:27:01<5:05:52, 3.31s/it]
22%|█████████████████████▊ | 1592/7135 [1:27:05<5:07:57, 3.33s/it]
22%|█████████████████████▉ | 1593/7135 [1:27:07<4:47:07, 3.11s/it]
22%|█████████████████████▉ | 1594/7135 [1:27:11<4:53:22, 3.18s/it]
22%|█████████████████████▉ | 1595/7135 [1:27:14<5:02:43, 3.28s/it]
22%|█████████████████████▉ | 1596/7135 [1:27:18<5:04:44, 3.30s/it]
22%|█████████████████████▉ | 1597/7135 [1:27:21<5:01:49, 3.27s/it]
22%|█████████████████████▉ | 1598/7135 [1:27:24<5:04:29, 3.30s/it]
22%|█████████████████████▉ | 1599/7135 [1:27:28<5:12:32, 3.39s/it]
22%|█████████████████████▉ | 1600/7135 [1:27:30<4:50:01, 3.14s/it]
{'loss': 0.8836, 'grad_norm': 5.84375, 'learning_rate': 4.460481236218878e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 532.12, 'epoch': 2.24}
22%|█████████████████████▉ | 1600/7135 [1:27:30<4:50:01, 3.14s/it]
22%|█████████████████████▉ | 1601/7135 [1:27:34<4:53:46, 3.19s/it]
22%|██████████████████████ | 1602/7135 [1:27:36<4:39:21, 3.03s/it]
22%|██████████████████████ | 1603/7135 [1:27:40<4:51:20, 3.16s/it]
22%|██████████████████████ | 1604/7135 [1:27:43<4:48:33, 3.13s/it]
22%|██████████████████████ | 1605/7135 [1:27:46<4:44:29, 3.09s/it]
23%|██████████████████████ | 1606/7135 [1:27:49<4:48:33, 3.13s/it]
23%|██████████████████████ | 1607/7135 [1:27:52<4:52:41, 3.18s/it]
23%|██████████████████████ | 1608/7135 [1:27:55<4:54:25, 3.20s/it]
23%|██████████████████████ | 1609/7135 [1:27:58<4:48:45, 3.14s/it]
23%|██████████████████████ | 1610/7135 [1:28:01<4:40:51, 3.05s/it]
{'loss': 0.8008, 'grad_norm': 5.625, 'learning_rate': 4.453534157409388e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 447.99, 'epoch': 2.26}
23%|██████████████████████ | 1610/7135 [1:28:01<4:40:51, 3.05s/it]
23%|██████████████████████▏ | 1611/7135 [1:28:05<4:49:03, 3.14s/it]
23%|██████████████████████▏ | 1612/7135 [1:28:08<4:47:25, 3.12s/it]
23%|██████████████████████▏ | 1613/7135 [1:28:11<4:37:42, 3.02s/it]
23%|██████████████████████▏ | 1614/7135 [1:28:14<4:38:32, 3.03s/it]
23%|██████████████████████▏ | 1615/7135 [1:28:17<4:51:56, 3.17s/it]
23%|██████████████████████▏ | 1616/7135 [1:28:20<4:49:21, 3.15s/it]
23%|██████████████████████▏ | 1617/7135 [1:28:23<4:40:58, 3.06s/it]
23%|██████████████████████▏ | 1618/7135 [1:28:26<4:29:44, 2.93s/it]
23%|██████████████████████▏ | 1619/7135 [1:28:29<4:34:27, 2.99s/it]
23%|██████████████████████▎ | 1620/7135 [1:28:33<4:56:47, 3.23s/it]
{'loss': 0.6995, 'grad_norm': 4.21875, 'learning_rate': 4.44654812103262e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 317.57, 'epoch': 2.27}
23%|██████████████████████▎ | 1620/7135 [1:28:33<4:56:47, 3.23s/it]
23%|██████████████████████▎ | 1621/7135 [1:28:36<4:56:06, 3.22s/it]
23%|██████████████████████▎ | 1622/7135 [1:28:39<4:44:12, 3.09s/it]
23%|██████████████████████▎ | 1623/7135 [1:28:41<4:38:20, 3.03s/it]
23%|██████████████████████▎ | 1624/7135 [1:28:44<4:31:02, 2.95s/it]
23%|██████████████████████▎ | 1625/7135 [1:28:48<4:41:04, 3.06s/it]
23%|██████████████████████▎ | 1626/7135 [1:28:51<4:38:56, 3.04s/it]
23%|██████████████████████▎ | 1627/7135 [1:28:54<4:41:06, 3.06s/it]
23%|██████████████████████▎ | 1628/7135 [1:28:56<4:34:30, 2.99s/it]
23%|██████████████████████▎ | 1629/7135 [1:29:00<4:38:43, 3.04s/it]
23%|██████████████████████▍ | 1630/7135 [1:29:03<4:41:53, 3.07s/it]
{'loss': 0.7709, 'grad_norm': 3.90625, 'learning_rate': 4.439523266404786e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.62, 'epoch': 2.28}
23%|██████████████████████▍ | 1630/7135 [1:29:03<4:41:53, 3.07s/it]
23%|██████████████████████▍ | 1631/7135 [1:29:06<4:54:53, 3.21s/it]
23%|██████████████████████▍ | 1632/7135 [1:29:09<4:51:09, 3.17s/it]
23%|██████████████████████▍ | 1633/7135 [1:29:13<4:57:07, 3.24s/it]
23%|██████████████████████▍ | 1634/7135 [1:29:16<4:47:56, 3.14s/it]
23%|██████████████████████▍ | 1635/7135 [1:29:19<5:02:24, 3.30s/it]
23%|██████████████████████▍ | 1636/7135 [1:29:23<5:01:36, 3.29s/it]
23%|██████████████████████▍ | 1637/7135 [1:29:26<4:50:11, 3.17s/it]
23%|██████████████████████▍ | 1638/7135 [1:29:29<4:47:04, 3.13s/it]
23%|██████████████████████▌ | 1639/7135 [1:29:32<4:42:19, 3.08s/it]
23%|██████████████████████▌ | 1640/7135 [1:29:35<4:43:54, 3.10s/it]
{'loss': 0.8316, 'grad_norm': 4.21875, 'learning_rate': 4.432459733616219e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.33, 'epoch': 2.3}
23%|██████████████████████▌ | 1640/7135 [1:29:35<4:43:54, 3.10s/it]
23%|██████████████████████▌ | 1641/7135 [1:29:38<4:51:23, 3.18s/it]
23%|██████████████████████▌ | 1642/7135 [1:29:41<4:54:11, 3.21s/it]
23%|██████████████████████▌ | 1643/7135 [1:29:45<4:55:29, 3.23s/it]
23%|██████████████████████▌ | 1644/7135 [1:29:48<4:57:18, 3.25s/it]
23%|██████████████████████▌ | 1645/7135 [1:29:51<4:48:28, 3.15s/it]
23%|██████████████████████▌ | 1646/7135 [1:29:54<4:41:03, 3.07s/it]
23%|██████████████████████▌ | 1647/7135 [1:29:57<4:36:48, 3.03s/it]
23%|██████████████████████▋ | 1648/7135 [1:30:00<4:36:56, 3.03s/it]
23%|██████████████████████▋ | 1649/7135 [1:30:03<4:38:17, 3.04s/it]
23%|██████████████████████▋ | 1650/7135 [1:30:06<4:45:38, 3.12s/it]
{'loss': 0.7225, 'grad_norm': 3.859375, 'learning_rate': 4.4253576635285726e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.67, 'epoch': 2.31}
23%|██████████████████████▋ | 1650/7135 [1:30:06<4:45:38, 3.12s/it]
23%|██████████████████████▋ | 1651/7135 [1:30:09<4:42:33, 3.09s/it]
23%|██████████████████████▋ | 1652/7135 [1:30:12<4:45:44, 3.13s/it]
23%|██████████████████████▋ | 1653/7135 [1:30:15<4:47:07, 3.14s/it]
23%|██████████████████████▋ | 1654/7135 [1:30:19<4:48:59, 3.16s/it]
23%|██████████████████████▋ | 1655/7135 [1:30:22<4:46:56, 3.14s/it]
23%|██████████████████████▋ | 1656/7135 [1:30:25<4:36:50, 3.03s/it]
23%|██████████████████████▊ | 1657/7135 [1:30:28<4:42:11, 3.09s/it]
23%|██████████████████████▊ | 1658/7135 [1:30:31<4:48:48, 3.16s/it]
23%|██████████████████████▊ | 1659/7135 [1:30:34<4:37:51, 3.04s/it]
23%|██████████████████████▊ | 1660/7135 [1:30:37<4:43:17, 3.10s/it]
{'loss': 0.7685, 'grad_norm': 7.15625, 'learning_rate': 4.418217197772016e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 396.9, 'epoch': 2.33}
23%|██████████████████████▊ | 1660/7135 [1:30:37<4:43:17, 3.10s/it]
23%|██████████████████████▊ | 1661/7135 [1:30:41<5:01:27, 3.30s/it]
23%|██████████████████████▊ | 1662/7135 [1:30:44<4:58:42, 3.27s/it]
23%|██████████████████████▊ | 1663/7135 [1:30:47<4:57:03, 3.26s/it]
23%|██████████████████████▊ | 1664/7135 [1:30:51<4:58:01, 3.27s/it]
23%|██████████████████████▊ | 1665/7135 [1:30:54<4:54:04, 3.23s/it]
23%|██████████████████████▉ | 1666/7135 [1:30:57<4:50:35, 3.19s/it]
23%|██████████████████████▉ | 1667/7135 [1:31:00<4:51:15, 3.20s/it]
23%|██████████████████████▉ | 1668/7135 [1:31:03<4:54:44, 3.23s/it]
23%|██████████████████████▉ | 1669/7135 [1:31:07<4:54:40, 3.23s/it]
23%|██████████████████████▉ | 1670/7135 [1:31:10<5:02:01, 3.32s/it]
{'loss': 0.7378, 'grad_norm': 3.984375, 'learning_rate': 4.41103847874241e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.02, 'epoch': 2.34}
23%|██████████████████████▉ | 1670/7135 [1:31:10<5:02:01, 3.32s/it]
23%|██████████████████████▉ | 1671/7135 [1:31:13<4:56:13, 3.25s/it]
23%|██████████████████████▉ | 1672/7135 [1:31:16<4:53:40, 3.23s/it]
23%|██████████████████████▉ | 1673/7135 [1:31:20<4:54:21, 3.23s/it]
23%|██████████████████████▉ | 1674/7135 [1:31:23<4:54:34, 3.24s/it]
23%|███████████████████████ | 1675/7135 [1:31:26<4:57:08, 3.27s/it]
23%|███████████████████████ | 1676/7135 [1:31:29<4:53:12, 3.22s/it]
24%|███████████████████████ | 1677/7135 [1:31:33<5:02:05, 3.32s/it]
24%|███████████████████████ | 1678/7135 [1:31:37<5:11:06, 3.42s/it]
24%|███████████████████████ | 1679/7135 [1:31:40<5:02:45, 3.33s/it]
24%|███████████████████████ | 1680/7135 [1:31:43<4:53:06, 3.22s/it]
{'loss': 0.9532, 'grad_norm': 4.65625, 'learning_rate': 4.403821649598462e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 422.45, 'epoch': 2.35}
24%|███████████████████████ | 1680/7135 [1:31:43<4:53:06, 3.22s/it]
24%|███████████████████████ | 1681/7135 [1:31:46<4:46:36, 3.15s/it]
24%|███████████████████████ | 1682/7135 [1:31:48<4:37:41, 3.06s/it]
24%|███████████████████████ | 1683/7135 [1:31:52<4:39:13, 3.07s/it]
24%|███████████████████████▏ | 1684/7135 [1:31:55<4:38:56, 3.07s/it]
24%|███████████████████████▏ | 1685/7135 [1:31:58<4:45:28, 3.14s/it]
24%|███████████████████████▏ | 1686/7135 [1:32:01<4:45:32, 3.14s/it]
24%|███████████████████████▏ | 1687/7135 [1:32:04<4:33:21, 3.01s/it]
24%|███████████████████████▏ | 1688/7135 [1:32:07<4:44:49, 3.14s/it]
24%|███████████████████████▏ | 1689/7135 [1:32:11<4:49:21, 3.19s/it]
24%|███████████████████████▏ | 1690/7135 [1:32:14<4:48:37, 3.18s/it]
{'loss': 0.7215, 'grad_norm': 6.1875, 'learning_rate': 4.396566854258879e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 331.89, 'epoch': 2.37}
24%|███████████████████████▏ | 1690/7135 [1:32:14<4:48:37, 3.18s/it]
24%|███████████████████████▏ | 1691/7135 [1:32:17<4:46:52, 3.16s/it]
24%|███████████████████████▏ | 1692/7135 [1:32:20<4:51:59, 3.22s/it]
24%|███████████████████████▎ | 1693/7135 [1:32:23<4:46:25, 3.16s/it]
24%|███████████████████████▎ | 1694/7135 [1:32:26<4:47:02, 3.17s/it]
24%|███████████████████████▎ | 1695/7135 [1:32:29<4:44:00, 3.13s/it]
24%|███████████████████████▎ | 1696/7135 [1:32:32<4:33:46, 3.02s/it]
24%|███████████████████████▎ | 1697/7135 [1:32:36<4:49:19, 3.19s/it]
24%|███████████████████████▎ | 1698/7135 [1:32:39<4:44:22, 3.14s/it]
24%|███████████████████████▎ | 1699/7135 [1:32:42<4:48:06, 3.18s/it]
24%|███████████████████████▎ | 1700/7135 [1:32:46<5:09:38, 3.42s/it]
{'loss': 0.7076, 'grad_norm': 6.8125, 'learning_rate': 4.389274237399492e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 294.37, 'epoch': 2.38}
24%|███████████████████████▎ | 1700/7135 [1:32:46<5:09:38, 3.42s/it]
24%|███████████████████████▎ | 1701/7135 [1:32:49<4:47:16, 3.17s/it]
24%|███████████████████████▍ | 1702/7135 [1:32:51<4:35:56, 3.05s/it]
24%|███████████████████████▍ | 1703/7135 [1:32:55<4:55:43, 3.27s/it]
24%|███████████████████████▍ | 1704/7135 [1:32:59<5:00:18, 3.32s/it]
24%|███████████████████████▍ | 1705/7135 [1:33:02<4:52:15, 3.23s/it]
24%|███████████████████████▍ | 1706/7135 [1:33:05<4:45:11, 3.15s/it]
24%|███████████████████████▍ | 1707/7135 [1:33:08<4:43:47, 3.14s/it]
24%|███████████████████████▍ | 1708/7135 [1:33:11<4:46:59, 3.17s/it]
24%|███████████████████████▍ | 1709/7135 [1:33:14<4:54:56, 3.26s/it]
24%|███████████████████████▍ | 1710/7135 [1:33:18<4:53:13, 3.24s/it]
{'loss': 0.5878, 'grad_norm': 4.84375, 'learning_rate': 4.381943944450372e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.0, 'epoch': 2.4}
24%|███████████████████████▍ | 1710/7135 [1:33:18<4:53:13, 3.24s/it]
24%|███████████████████████▌ | 1711/7135 [1:33:21<4:52:57, 3.24s/it]
24%|███████████████████████▌ | 1712/7135 [1:33:24<4:51:44, 3.23s/it]
24%|███████████████████████▌ | 1713/7135 [1:33:27<4:43:12, 3.13s/it]
24%|███████████████████████▌ | 1714/7135 [1:33:31<5:03:19, 3.36s/it]
24%|███████████████████████▌ | 1715/7135 [1:33:34<4:46:06, 3.17s/it]
24%|███████████████████████▌ | 1716/7135 [1:33:37<4:48:42, 3.20s/it]
24%|███████████████████████▌ | 1717/7135 [1:33:40<4:54:50, 3.27s/it]
24%|███████████████████████▌ | 1718/7135 [1:33:44<4:58:16, 3.30s/it]
24%|███████████████████████▌ | 1719/7135 [1:33:47<4:58:08, 3.30s/it]
24%|███████████████████████▌ | 1720/7135 [1:33:50<4:53:44, 3.25s/it]
{'loss': 0.713, 'grad_norm': 4.96875, 'learning_rate': 4.374576121592931e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.49, 'epoch': 2.41}
24%|███████████████████████▌ | 1720/7135 [1:33:50<4:53:44, 3.25s/it]
24%|███████████████████████▋ | 1721/7135 [1:33:53<4:49:47, 3.21s/it]
24%|███████████████████████▋ | 1722/7135 [1:33:57<4:57:06, 3.29s/it]
24%|███████████████████████▋ | 1723/7135 [1:34:00<4:50:14, 3.22s/it]
24%|███████████████████████▋ | 1724/7135 [1:34:03<4:42:25, 3.13s/it]
24%|███████████████████████▋ | 1725/7135 [1:34:06<4:53:40, 3.26s/it]
24%|███████████████████████▋ | 1726/7135 [1:34:10<4:59:12, 3.32s/it]
24%|███████████████████████▋ | 1727/7135 [1:34:13<4:51:49, 3.24s/it]
24%|███████████████████████▋ | 1728/7135 [1:34:16<4:56:41, 3.29s/it]
24%|███████████████████████▋ | 1729/7135 [1:34:19<4:57:33, 3.30s/it]
24%|███████████████████████▊ | 1730/7135 [1:34:22<4:49:53, 3.22s/it]
{'loss': 0.9399, 'grad_norm': 4.5625, 'learning_rate': 4.367170915757005e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 460.72, 'epoch': 2.42}
24%|███████████████████████▊ | 1730/7135 [1:34:23<4:49:53, 3.22s/it]
24%|███████████████████████▊ | 1731/7135 [1:34:25<4:42:53, 3.14s/it]
24%|███████████████████████▊ | 1732/7135 [1:34:29<4:44:20, 3.16s/it]
24%|███████████████████████▊ | 1733/7135 [1:34:32<4:41:23, 3.13s/it]
24%|███████████████████████▊ | 1734/7135 [1:34:35<4:32:48, 3.03s/it]
24%|███████████████████████▊ | 1735/7135 [1:34:38<4:34:50, 3.05s/it]
24%|███████████████████████▊ | 1736/7135 [1:34:41<4:41:10, 3.12s/it]
24%|███████████████████████▊ | 1737/7135 [1:34:44<4:45:54, 3.18s/it]
24%|███████████████████████▊ | 1738/7135 [1:34:48<4:54:55, 3.28s/it]
24%|███████████████████████▉ | 1739/7135 [1:34:51<4:52:05, 3.25s/it]
24%|███████████████████████▉ | 1740/7135 [1:34:54<4:44:40, 3.17s/it]
{'loss': 0.7354, 'grad_norm': 4.5, 'learning_rate': 4.359728474617926e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 386.98, 'epoch': 2.44}
24%|███████████████████████▉ | 1740/7135 [1:34:54<4:44:40, 3.17s/it]
24%|███████████████████████▉ | 1741/7135 [1:34:57<4:50:31, 3.23s/it]
24%|███████████████████████▉ | 1742/7135 [1:35:00<4:42:31, 3.14s/it]
24%|███████████████████████▉ | 1743/7135 [1:35:03<4:42:17, 3.14s/it]
24%|███████████████████████▉ | 1744/7135 [1:35:06<4:35:18, 3.06s/it]
24%|███████████████████████▉ | 1745/7135 [1:35:09<4:25:25, 2.95s/it]
24%|███████████████████████▉ | 1746/7135 [1:35:12<4:34:33, 3.06s/it]
24%|███████████████████████▉ | 1747/7135 [1:35:16<4:41:19, 3.13s/it]
24%|████████████████████████ | 1748/7135 [1:35:19<4:44:09, 3.16s/it]
25%|████████████████████████ | 1749/7135 [1:35:22<4:46:23, 3.19s/it]
25%|████████████████████████ | 1750/7135 [1:35:25<4:45:42, 3.18s/it]
{'loss': 0.7583, 'grad_norm': 4.9375, 'learning_rate': 4.352248946593576e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 379.52, 'epoch': 2.45}
25%|████████████████████████ | 1750/7135 [1:35:25<4:45:42, 3.18s/it]
25%|████████████████████████ | 1751/7135 [1:35:28<4:38:11, 3.10s/it]
25%|████████████████████████ | 1752/7135 [1:35:31<4:39:09, 3.11s/it]
25%|████████████████████████ | 1753/7135 [1:35:34<4:28:29, 2.99s/it]
25%|████████████████████████ | 1754/7135 [1:35:38<4:59:34, 3.34s/it]
25%|████████████████████████ | 1755/7135 [1:35:42<5:24:02, 3.61s/it]
25%|████████████████████████ | 1756/7135 [1:35:46<5:12:54, 3.49s/it]
25%|████████████████████████▏ | 1757/7135 [1:35:48<4:55:14, 3.29s/it]
25%|████████████████████████▏ | 1758/7135 [1:35:52<4:51:48, 3.26s/it]
25%|████████████████████████▏ | 1759/7135 [1:35:55<4:48:54, 3.22s/it]
25%|████████████████████████▏ | 1760/7135 [1:35:58<4:49:15, 3.23s/it]
{'loss': 0.8322, 'grad_norm': 4.375, 'learning_rate': 4.344732480841427e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.11, 'epoch': 2.47}
25%|████████████████████████▏ | 1760/7135 [1:35:58<4:49:15, 3.23s/it]
25%|████████████████████████▏ | 1761/7135 [1:36:02<5:00:08, 3.35s/it]
25%|████████████████████████▏ | 1762/7135 [1:36:06<5:21:36, 3.59s/it]
25%|████████████████████████▏ | 1763/7135 [1:36:09<5:13:36, 3.50s/it]
25%|████████████████████████▏ | 1764/7135 [1:36:12<5:01:56, 3.37s/it]
25%|████████████████████████▏ | 1765/7135 [1:36:15<4:51:02, 3.25s/it]
25%|████████████████████████▎ | 1766/7135 [1:36:18<4:44:11, 3.18s/it]
25%|████████████████████████▎ | 1767/7135 [1:36:22<4:53:35, 3.28s/it]
25%|████████████████████████▎ | 1768/7135 [1:36:25<4:49:23, 3.24s/it]
25%|████████████████████████▎ | 1769/7135 [1:36:28<4:50:37, 3.25s/it]
25%|████████████████████████▎ | 1770/7135 [1:36:31<4:37:34, 3.10s/it]
{'loss': 0.7805, 'grad_norm': 6.25, 'learning_rate': 4.337179227255565e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 560.61, 'epoch': 2.48}
25%|████████████████████████▎ | 1770/7135 [1:36:31<4:37:34, 3.10s/it]
25%|████████████████████████▎ | 1771/7135 [1:36:35<5:03:59, 3.40s/it]
25%|████████████████████████▎ | 1772/7135 [1:36:38<4:50:19, 3.25s/it]
25%|████████████████████████▎ | 1773/7135 [1:36:41<4:54:36, 3.30s/it]
25%|████████████████████████▎ | 1774/7135 [1:36:44<4:46:12, 3.20s/it]
25%|████████████████████████▍ | 1775/7135 [1:36:47<4:41:37, 3.15s/it]
25%|████████████████████████▍ | 1776/7135 [1:36:50<4:35:58, 3.09s/it]
25%|████████████████████████▍ | 1777/7135 [1:36:53<4:42:15, 3.16s/it]
25%|████████████████████████▍ | 1778/7135 [1:36:56<4:38:27, 3.12s/it]
25%|████████████████████████▍ | 1779/7135 [1:37:00<4:42:30, 3.16s/it]
25%|████████████████████████▍ | 1780/7135 [1:37:03<4:49:54, 3.25s/it]
{'loss': 0.7194, 'grad_norm': 4.25, 'learning_rate': 4.329589336463705e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.44, 'epoch': 2.49}
25%|████████████████████████▍ | 1780/7135 [1:37:03<4:49:54, 3.25s/it]
25%|████████████████████████▍ | 1781/7135 [1:37:06<4:42:01, 3.16s/it]
25%|████████████████████████▍ | 1782/7135 [1:37:10<4:50:33, 3.26s/it]
25%|████████████████████████▍ | 1783/7135 [1:37:13<4:41:10, 3.15s/it]
25%|████████████████████████▌ | 1784/7135 [1:37:16<4:46:29, 3.21s/it]
25%|████████████████████████▌ | 1785/7135 [1:37:19<4:43:22, 3.18s/it]
25%|████████████████████████▌ | 1786/7135 [1:37:22<4:46:10, 3.21s/it]
25%|████████████████████████▌ | 1787/7135 [1:37:25<4:35:14, 3.09s/it]
25%|████████████████████████▌ | 1788/7135 [1:37:28<4:27:09, 3.00s/it]
25%|████████████████████████▌ | 1789/7135 [1:37:31<4:32:05, 3.05s/it]
25%|████████████████████████▌ | 1790/7135 [1:37:34<4:27:15, 3.00s/it]
{'loss': 0.7303, 'grad_norm': 4.28125, 'learning_rate': 4.321962959824185e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.98, 'epoch': 2.51}
25%|████████████████████████▌ | 1790/7135 [1:37:34<4:27:15, 3.00s/it]
25%|████████████████████████▌ | 1791/7135 [1:37:38<4:44:41, 3.20s/it]
25%|████████████████████████▌ | 1792/7135 [1:37:41<4:47:20, 3.23s/it]
25%|████████████████████████▋ | 1793/7135 [1:37:44<4:44:41, 3.20s/it]
25%|████████████████████████▋ | 1794/7135 [1:37:47<4:43:57, 3.19s/it]
25%|████████████████████████▋ | 1795/7135 [1:37:50<4:42:11, 3.17s/it]
25%|████████████████████████▋ | 1796/7135 [1:37:53<4:39:31, 3.14s/it]
25%|████████████████████████▋ | 1797/7135 [1:37:56<4:31:34, 3.05s/it]
25%|████████████████████████▋ | 1798/7135 [1:37:59<4:29:10, 3.03s/it]
25%|████████████████████████▋ | 1799/7135 [1:38:02<4:20:41, 2.93s/it]
25%|████████████████████████▋ | 1800/7135 [1:38:05<4:31:09, 3.05s/it]
{'loss': 0.7772, 'grad_norm': 6.46875, 'learning_rate': 4.3143002494229455e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 363.13, 'epoch': 2.52}
25%|████████████████████████▋ | 1800/7135 [1:38:05<4:31:09, 3.05s/it]
25%|████████████████████████▋ | 1801/7135 [1:38:08<4:32:48, 3.07s/it]
25%|████████████████████████▊ | 1802/7135 [1:38:11<4:31:47, 3.06s/it]
25%|████████████████████████▊ | 1803/7135 [1:38:15<4:45:26, 3.21s/it]
25%|████████████████████████▊ | 1804/7135 [1:38:18<4:43:11, 3.19s/it]
25%|████████████████████████▊ | 1805/7135 [1:38:21<4:41:30, 3.17s/it]
25%|████████████████████████▊ | 1806/7135 [1:38:24<4:27:57, 3.02s/it]
25%|████████████████████████▊ | 1807/7135 [1:38:27<4:39:02, 3.14s/it]
25%|████████████████████████▊ | 1808/7135 [1:38:30<4:39:56, 3.15s/it]
25%|████████████████████████▊ | 1809/7135 [1:38:34<4:51:57, 3.29s/it]
25%|████████████████████████▊ | 1810/7135 [1:38:37<4:54:30, 3.32s/it]
{'loss': 1.0924, 'grad_norm': 2.828125, 'learning_rate': 4.3066013580705e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.6, 'epoch': 2.54}
25%|████████████████████████▊ | 1810/7135 [1:38:37<4:54:30, 3.32s/it]
25%|████████████████████████▊ | 1811/7135 [1:38:40<4:42:27, 3.18s/it]
25%|████████████████████████▉ | 1812/7135 [1:38:43<4:38:46, 3.14s/it]
25%|████████████████████████▉ | 1813/7135 [1:38:46<4:33:39, 3.09s/it]
25%|████████████████████████▉ | 1814/7135 [1:38:49<4:28:42, 3.03s/it]
25%|████████████████████████▉ | 1815/7135 [1:38:52<4:33:44, 3.09s/it]
25%|████████████████████████▉ | 1816/7135 [1:38:56<4:36:27, 3.12s/it]
25%|████████████████████████▉ | 1817/7135 [1:38:59<4:52:04, 3.30s/it]
25%|████████████████████████▉ | 1818/7135 [1:39:03<4:50:23, 3.28s/it]
25%|████████████████████████▉ | 1819/7135 [1:39:06<4:45:11, 3.22s/it]
26%|████████████████████████▉ | 1820/7135 [1:39:09<4:53:09, 3.31s/it]
{'loss': 0.6746, 'grad_norm': 5.21875, 'learning_rate': 4.2988664392988836e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 299.18, 'epoch': 2.55}
26%|████████████████████████▉ | 1820/7135 [1:39:09<4:53:09, 3.31s/it]
26%|█████████████████████████ | 1821/7135 [1:39:12<4:47:44, 3.25s/it]
26%|█████████████████████████ | 1822/7135 [1:39:16<5:11:28, 3.52s/it]
26%|█████████████████████████ | 1823/7135 [1:39:20<5:02:30, 3.42s/it]
26%|█████████████████████████ | 1824/7135 [1:39:23<4:53:38, 3.32s/it]
26%|█████████████████████████ | 1825/7135 [1:39:26<4:50:18, 3.28s/it]
26%|█████████████████████████ | 1826/7135 [1:39:29<4:48:29, 3.26s/it]
26%|█████████████████████████ | 1827/7135 [1:39:32<4:39:44, 3.16s/it]
26%|█████████████████████████ | 1828/7135 [1:39:35<4:44:10, 3.21s/it]
26%|█████████████████████████ | 1829/7135 [1:39:38<4:35:38, 3.12s/it]
26%|█████████████████████████▏ | 1830/7135 [1:39:42<4:39:51, 3.17s/it]
{'loss': 0.822, 'grad_norm': 3.921875, 'learning_rate': 4.291095647358596e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 488.41, 'epoch': 2.56}
26%|█████████████████████████▏ | 1830/7135 [1:39:42<4:39:51, 3.17s/it]
26%|█████████████████████████▏ | 1831/7135 [1:39:45<4:43:30, 3.21s/it]
26%|█████████████████████████▏ | 1832/7135 [1:39:48<4:36:26, 3.13s/it]
26%|█████████████████████████▏ | 1833/7135 [1:39:51<4:28:09, 3.03s/it]
26%|█████████████████████████▏ | 1834/7135 [1:39:54<4:50:12, 3.28s/it]
26%|█████████████████████████▏ | 1835/7135 [1:39:58<4:52:56, 3.32s/it]
26%|█████████████████████████▏ | 1836/7135 [1:40:01<4:55:11, 3.34s/it]
26%|█████████████████████████▏ | 1837/7135 [1:40:04<4:49:05, 3.27s/it]
26%|█████████████████████████▏ | 1838/7135 [1:40:08<4:46:12, 3.24s/it]
26%|█████████████████████████▎ | 1839/7135 [1:40:10<4:36:57, 3.14s/it]
26%|█████████████████████████▎ | 1840/7135 [1:40:15<5:08:18, 3.49s/it]
{'loss': 0.7971, 'grad_norm': 1.765625, 'learning_rate': 4.283289137215522e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 439.24, 'epoch': 2.58}
26%|█████████████████████████▎ | 1840/7135 [1:40:15<5:08:18, 3.49s/it]
26%|█████████████████████████▎ | 1841/7135 [1:40:19<5:14:56, 3.57s/it]
26%|█████████████████████████▎ | 1842/7135 [1:40:21<4:53:20, 3.33s/it]
26%|█████████████████████████▎ | 1843/7135 [1:40:24<4:50:11, 3.29s/it]
26%|█████████████████████████▎ | 1844/7135 [1:40:27<4:41:26, 3.19s/it]
26%|█████████████████████████▎ | 1845/7135 [1:40:31<4:38:40, 3.16s/it]
26%|█████████████████████████▎ | 1846/7135 [1:40:34<4:36:45, 3.14s/it]
26%|█████████████████████████▎ | 1847/7135 [1:40:37<4:30:08, 3.07s/it]
26%|█████████████████████████▍ | 1848/7135 [1:40:40<4:38:20, 3.16s/it]
26%|█████████████████████████▍ | 1849/7135 [1:40:43<4:40:35, 3.18s/it]
26%|█████████████████████████▍ | 1850/7135 [1:40:46<4:33:22, 3.10s/it]
{'loss': 0.6837, 'grad_norm': 5.21875, 'learning_rate': 4.2754470645478425e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 363.14, 'epoch': 2.59}
26%|█████████████████████████▍ | 1850/7135 [1:40:46<4:33:22, 3.10s/it]
26%|█████████████████████████▍ | 1851/7135 [1:40:49<4:40:16, 3.18s/it]
26%|█████████████████████████▍ | 1852/7135 [1:40:53<4:39:36, 3.18s/it]
26%|█████████████████████████▍ | 1853/7135 [1:40:56<4:36:22, 3.14s/it]
26%|█████████████████████████▍ | 1854/7135 [1:40:59<4:29:35, 3.06s/it]
26%|█████████████████████████▍ | 1855/7135 [1:41:01<4:24:55, 3.01s/it]
26%|█████████████████████████▍ | 1856/7135 [1:41:05<4:49:21, 3.29s/it]
26%|█████████████████████████▌ | 1857/7135 [1:41:09<4:54:57, 3.35s/it]
26%|█████████████████████████▌ | 1858/7135 [1:41:12<4:47:28, 3.27s/it]
26%|█████████████████████████▌ | 1859/7135 [1:41:15<4:44:11, 3.23s/it]
26%|█████████████████████████▌ | 1860/7135 [1:41:18<4:29:25, 3.06s/it]
{'loss': 0.6905, 'grad_norm': 6.5625, 'learning_rate': 4.26756958574293e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 503.51, 'epoch': 2.61}
26%|█████████████████████████▌ | 1860/7135 [1:41:18<4:29:25, 3.06s/it]
26%|█████████████████████████▌ | 1861/7135 [1:41:21<4:31:04, 3.08s/it]
26%|█████████████████████████▌ | 1862/7135 [1:41:23<4:17:06, 2.93s/it]
26%|█████████████████████████▌ | 1863/7135 [1:41:28<4:50:04, 3.30s/it]
26%|█████████████████████████▌ | 1864/7135 [1:41:31<4:55:50, 3.37s/it]
26%|█████████████████████████▌ | 1865/7135 [1:41:34<4:49:34, 3.30s/it]
26%|█████████████████████████▋ | 1866/7135 [1:41:37<4:45:00, 3.25s/it]
26%|█████████████████████████▋ | 1867/7135 [1:41:41<5:02:00, 3.44s/it]
26%|█████████████████████████▋ | 1868/7135 [1:41:45<5:02:08, 3.44s/it]
26%|█████████████████████████▋ | 1869/7135 [1:41:48<4:59:56, 3.42s/it]
26%|█████████████████████████▋ | 1870/7135 [1:41:52<5:00:26, 3.42s/it]
{'loss': 0.8531, 'grad_norm': 3.171875, 'learning_rate': 4.25965685789423e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 513.76, 'epoch': 2.62}
26%|█████████████████████████▋ | 1870/7135 [1:41:52<5:00:26, 3.42s/it]
26%|█████████████████████████▋ | 1871/7135 [1:41:55<4:53:43, 3.35s/it]
26%|█████████████████████████▋ | 1872/7135 [1:41:58<4:49:59, 3.31s/it]
26%|█████████████████████████▋ | 1873/7135 [1:42:01<4:54:52, 3.36s/it]
26%|█████████████████████████▋ | 1874/7135 [1:42:05<4:50:33, 3.31s/it]
26%|█████████████████████████▊ | 1875/7135 [1:42:09<5:20:02, 3.65s/it]
26%|█████████████████████████▊ | 1876/7135 [1:42:12<4:58:34, 3.41s/it]
26%|█████████████████████████▊ | 1877/7135 [1:42:16<5:18:38, 3.64s/it]
26%|█████████████████████████▊ | 1878/7135 [1:42:19<5:00:29, 3.43s/it]
26%|█████████████████████████▊ | 1879/7135 [1:42:23<5:08:59, 3.53s/it]
26%|█████████████████████████▊ | 1880/7135 [1:42:26<5:10:13, 3.54s/it]
{'loss': 0.8342, 'grad_norm': 4.6875, 'learning_rate': 4.251709038798127e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 367.25, 'epoch': 2.63}
26%|█████████████████████████▊ | 1880/7135 [1:42:26<5:10:13, 3.54s/it]
26%|█████████████████████████▊ | 1881/7135 [1:42:30<5:01:27, 3.44s/it]
26%|█████████████████████████▊ | 1882/7135 [1:42:33<4:50:48, 3.32s/it]
26%|█████████████████████████▊ | 1883/7135 [1:42:35<4:37:08, 3.17s/it]
26%|█████████████████████████▉ | 1884/7135 [1:42:39<4:44:22, 3.25s/it]
26%|█████████████████████████▉ | 1885/7135 [1:42:42<4:35:31, 3.15s/it]
26%|█████████████████████████▉ | 1886/7135 [1:42:45<4:38:27, 3.18s/it]
26%|█████████████████████████▉ | 1887/7135 [1:42:48<4:42:00, 3.22s/it]
26%|█████████████████████████▉ | 1888/7135 [1:42:52<4:49:39, 3.31s/it]
26%|█████████████████████████▉ | 1889/7135 [1:42:55<4:58:54, 3.42s/it]
26%|█████████████████████████▉ | 1890/7135 [1:42:59<5:03:36, 3.47s/it]
{'loss': 0.7037, 'grad_norm': 3.15625, 'learning_rate': 4.2437262869507974e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.51, 'epoch': 2.65}
26%|█████████████████████████▉ | 1890/7135 [1:42:59<5:03:36, 3.47s/it]
27%|█████████████████████████▉ | 1891/7135 [1:43:02<4:46:16, 3.28s/it]
27%|█████████████████████████▉ | 1892/7135 [1:43:05<4:33:33, 3.13s/it]
27%|██████████████████████████ | 1893/7135 [1:43:08<4:31:45, 3.11s/it]
27%|██████████████████████████ | 1894/7135 [1:43:11<4:29:21, 3.08s/it]
27%|██████████████████████████ | 1895/7135 [1:43:14<4:24:10, 3.02s/it]
27%|██████████████████████████ | 1896/7135 [1:43:17<4:26:52, 3.06s/it]
27%|██████████████████████████ | 1897/7135 [1:43:20<4:25:47, 3.04s/it]
27%|██████████████████████████ | 1898/7135 [1:43:23<4:31:46, 3.11s/it]
27%|██████████████████████████ | 1899/7135 [1:43:26<4:29:29, 3.09s/it]
27%|██████████████████████████ | 1900/7135 [1:43:29<4:22:03, 3.00s/it]
{'loss': 0.69, 'grad_norm': 3.96875, 'learning_rate': 4.2357087615450546e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 419.36, 'epoch': 2.66}
27%|██████████████████████████ | 1900/7135 [1:43:29<4:22:03, 3.00s/it]
27%|██████████████████████████ | 1901/7135 [1:43:32<4:11:34, 2.88s/it]
27%|██████████████████████████ | 1902/7135 [1:43:35<4:23:21, 3.02s/it]
27%|██████████████████████████▏ | 1903/7135 [1:43:38<4:20:40, 2.99s/it]
27%|██████████████████████████▏ | 1904/7135 [1:43:41<4:21:36, 3.00s/it]
27%|██████████████████████████▏ | 1905/7135 [1:43:44<4:26:16, 3.05s/it]
27%|██████████████████████████▏ | 1906/7135 [1:43:47<4:26:40, 3.06s/it]
27%|██████████████████████████▏ | 1907/7135 [1:43:51<4:40:16, 3.22s/it]
27%|██████████████████████████▏ | 1908/7135 [1:43:53<4:29:03, 3.09s/it]
27%|██████████████████████████▏ | 1909/7135 [1:43:57<4:32:46, 3.13s/it]
27%|██████████████████████████▏ | 1910/7135 [1:43:59<4:22:11, 3.01s/it]
{'loss': 0.8369, 'grad_norm': 4.1875, 'learning_rate': 4.227656622467162e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 450.41, 'epoch': 2.68}
27%|██████████████████████████▏ | 1910/7135 [1:43:59<4:22:11, 3.01s/it]
27%|██████████████████████████▏ | 1911/7135 [1:44:03<4:25:04, 3.04s/it]
27%|██████████████████████████▎ | 1912/7135 [1:44:06<4:28:25, 3.08s/it]
27%|██████████████████████████▎ | 1913/7135 [1:44:09<4:22:28, 3.02s/it]
27%|██████████████████████████▎ | 1914/7135 [1:44:12<4:24:24, 3.04s/it]
27%|██████████████████████████▎ | 1915/7135 [1:44:15<4:35:57, 3.17s/it]
27%|██████████████████████████▎ | 1916/7135 [1:44:18<4:30:07, 3.11s/it]
27%|██████████████████████████▎ | 1917/7135 [1:44:22<4:42:17, 3.25s/it]
27%|██████████████████████████▎ | 1918/7135 [1:44:24<4:30:23, 3.11s/it]
27%|██████████████████████████▎ | 1919/7135 [1:44:27<4:22:15, 3.02s/it]
27%|██████████████████████████▎ | 1920/7135 [1:44:30<4:26:27, 3.07s/it]
{'loss': 0.7769, 'grad_norm': 3.546875, 'learning_rate': 4.21957003029366e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.53, 'epoch': 2.69}
27%|██████████████████████████▎ | 1920/7135 [1:44:30<4:26:27, 3.07s/it]
27%|██████████████████████████▍ | 1921/7135 [1:44:33<4:17:48, 2.97s/it]
27%|██████████████████████████▍ | 1922/7135 [1:44:37<4:35:59, 3.18s/it]
27%|██████████████████████████▍ | 1923/7135 [1:44:40<4:33:54, 3.15s/it]
27%|██████████████████████████▍ | 1924/7135 [1:44:43<4:24:54, 3.05s/it]
27%|██████████████████████████▍ | 1925/7135 [1:44:46<4:36:01, 3.18s/it]
27%|██████████████████████████▍ | 1926/7135 [1:44:50<4:43:04, 3.26s/it]
27%|██████████████████████████▍ | 1927/7135 [1:44:53<4:47:30, 3.31s/it]
27%|██████████████████████████▍ | 1928/7135 [1:44:56<4:41:55, 3.25s/it]
27%|██████████████████████████▍ | 1929/7135 [1:45:00<4:46:43, 3.30s/it]
27%|██████████████████████████▌ | 1930/7135 [1:45:02<4:33:54, 3.16s/it]
{'loss': 0.7692, 'grad_norm': 5.0625, 'learning_rate': 4.211449146288151e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.29, 'epoch': 2.7}
27%|██████████████████████████▌ | 1930/7135 [1:45:02<4:33:54, 3.16s/it]
27%|██████████████████████████▌ | 1931/7135 [1:45:06<4:32:15, 3.14s/it]
27%|██████████████████████████▌ | 1932/7135 [1:45:08<4:25:44, 3.06s/it]
27%|██████████████████████████▌ | 1933/7135 [1:45:12<4:37:37, 3.20s/it]
27%|██████████████████████████▌ | 1934/7135 [1:45:16<4:47:14, 3.31s/it]
27%|██████████████████████████▌ | 1935/7135 [1:45:18<4:37:14, 3.20s/it]
27%|██████████████████████████▌ | 1936/7135 [1:45:22<4:39:31, 3.23s/it]
27%|██████████████████████████▌ | 1937/7135 [1:45:25<4:32:58, 3.15s/it]
27%|██████████████████████████▌ | 1938/7135 [1:45:28<4:32:29, 3.15s/it]
27%|██████████████████████████▋ | 1939/7135 [1:45:31<4:33:55, 3.16s/it]
27%|██████████████████████████▋ | 1940/7135 [1:45:34<4:32:49, 3.15s/it]
{'loss': 0.6825, 'grad_norm': 7.65625, 'learning_rate': 4.20329413239809e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.59, 'epoch': 2.72}
27%|██████████████████████████▋ | 1940/7135 [1:45:34<4:32:49, 3.15s/it]
27%|██████████████████████████▋ | 1941/7135 [1:45:37<4:33:21, 3.16s/it]
27%|██████████████████████████▋ | 1942/7135 [1:45:40<4:27:54, 3.10s/it]
27%|██████████████████████████▋ | 1943/7135 [1:45:43<4:25:41, 3.07s/it]
27%|██████████████████████████▋ | 1944/7135 [1:45:47<4:40:41, 3.24s/it]
27%|██████████████████████████▋ | 1945/7135 [1:45:50<4:37:46, 3.21s/it]
27%|██████████████████████████▋ | 1946/7135 [1:45:53<4:21:45, 3.03s/it]
27%|██████████████████████████▋ | 1947/7135 [1:45:56<4:27:57, 3.10s/it]
27%|██████████████████████████▊ | 1948/7135 [1:45:59<4:32:01, 3.15s/it]
27%|██████████████████████████▊ | 1949/7135 [1:46:02<4:24:03, 3.06s/it]
27%|██████████████████████████▊ | 1950/7135 [1:46:05<4:25:01, 3.07s/it]
{'loss': 0.8832, 'grad_norm': 7.65625, 'learning_rate': 4.195105151251554e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.24, 'epoch': 2.73}
27%|██████████████████████████▊ | 1950/7135 [1:46:05<4:25:01, 3.07s/it]
27%|██████████████████████████▊ | 1951/7135 [1:46:08<4:27:13, 3.09s/it]
27%|██████████████████████████▊ | 1952/7135 [1:46:11<4:23:55, 3.06s/it]
27%|██████████████████████████▊ | 1953/7135 [1:46:14<4:18:09, 2.99s/it]
27%|██████████████████████████▊ | 1954/7135 [1:46:17<4:21:38, 3.03s/it]
27%|██████████████████████████▊ | 1955/7135 [1:46:21<4:28:23, 3.11s/it]
27%|██████████████████████████▊ | 1956/7135 [1:46:23<4:22:30, 3.04s/it]
27%|██████████████████████████▉ | 1957/7135 [1:46:26<4:15:12, 2.96s/it]
27%|██████████████████████████▉ | 1958/7135 [1:46:29<4:15:42, 2.96s/it]
27%|██████████████████████████▉ | 1959/7135 [1:46:32<4:13:08, 2.93s/it]
27%|██████████████████████████▉ | 1960/7135 [1:46:35<4:25:59, 3.08s/it]
{'loss': 0.7472, 'grad_norm': 2.734375, 'learning_rate': 4.186882366153998e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 344.88, 'epoch': 2.75}
27%|██████████████████████████▉ | 1960/7135 [1:46:35<4:25:59, 3.08s/it]
27%|██████████████████████████▉ | 1961/7135 [1:46:39<4:41:12, 3.26s/it]
27%|██████████████████████████▉ | 1962/7135 [1:46:42<4:40:01, 3.25s/it]
28%|██████████████████████████▉ | 1963/7135 [1:46:45<4:34:39, 3.19s/it]
28%|██████████████████████████▉ | 1964/7135 [1:46:48<4:24:23, 3.07s/it]
28%|██████████████████████████▉ | 1965/7135 [1:46:52<4:35:24, 3.20s/it]
28%|███████████████████████████ | 1966/7135 [1:46:55<4:38:09, 3.23s/it]
28%|███████████████████████████ | 1967/7135 [1:46:58<4:36:57, 3.22s/it]
28%|███████████████████████████ | 1968/7135 [1:47:01<4:30:32, 3.14s/it]
28%|███████████████████████████ | 1969/7135 [1:47:04<4:30:41, 3.14s/it]
28%|███████████████████████████ | 1970/7135 [1:47:08<4:44:11, 3.30s/it]
{'loss': 0.7264, 'grad_norm': 2.8125, 'learning_rate': 4.1786259410849965e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.32, 'epoch': 2.76}
28%|███████████████████████████ | 1970/7135 [1:47:08<4:44:11, 3.30s/it]
28%|███████████████████████████ | 1971/7135 [1:47:11<4:41:19, 3.27s/it]
28%|███████████████████████████ | 1972/7135 [1:47:16<5:17:00, 3.68s/it]
28%|███████████████████████████ | 1973/7135 [1:47:20<5:32:50, 3.87s/it]
28%|███████████████████████████ | 1974/7135 [1:47:23<5:08:48, 3.59s/it]
28%|███████████████████████████▏ | 1975/7135 [1:47:26<4:55:35, 3.44s/it]
28%|███████████████████████████▏ | 1976/7135 [1:47:29<4:39:36, 3.25s/it]
28%|███████████████████████████▏ | 1977/7135 [1:47:32<4:38:00, 3.23s/it]
28%|███████████████████████████▏ | 1978/7135 [1:47:35<4:33:51, 3.19s/it]
28%|███████████████████████████▏ | 1979/7135 [1:47:38<4:25:52, 3.09s/it]
28%|███████████████████████████▏ | 1980/7135 [1:47:41<4:32:35, 3.17s/it]
{'loss': 0.8695, 'grad_norm': 5.625, 'learning_rate': 4.17033604069498e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 450.78, 'epoch': 2.77}
28%|███████████████████████████▏ | 1980/7135 [1:47:41<4:32:35, 3.17s/it]
28%|███████████████████████████▏ | 1981/7135 [1:47:45<4:46:48, 3.34s/it]
28%|███████████████████████████▏ | 1982/7135 [1:47:48<4:43:33, 3.30s/it]
28%|███████████████████████████▏ | 1983/7135 [1:47:52<4:49:22, 3.37s/it]
28%|███████████████████████████▎ | 1984/7135 [1:47:56<4:59:59, 3.49s/it]
28%|███████████████████████████▎ | 1985/7135 [1:47:59<4:57:37, 3.47s/it]
28%|███████████████████████████▎ | 1986/7135 [1:48:02<4:45:16, 3.32s/it]
28%|███████████████████████████▎ | 1987/7135 [1:48:06<4:54:45, 3.44s/it]
28%|███████████████████████████▎ | 1988/7135 [1:48:09<4:45:39, 3.33s/it]
28%|███████████████████████████▎ | 1989/7135 [1:48:12<4:40:41, 3.27s/it]
28%|███████████████████████████▎ | 1990/7135 [1:48:15<4:22:05, 3.06s/it]
{'loss': 0.721, 'grad_norm': 5.9375, 'learning_rate': 4.162012830301944e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 491.49, 'epoch': 2.79}
28%|███████████████████████████▎ | 1990/7135 [1:48:15<4:22:05, 3.06s/it]
28%|███████████████████████████▎ | 1991/7135 [1:48:18<4:32:58, 3.18s/it]
28%|███████████████████████████▎ | 1992/7135 [1:48:21<4:35:29, 3.21s/it]
28%|███████████████████████████▎ | 1993/7135 [1:48:25<4:41:55, 3.29s/it]
28%|███████████████████████████▍ | 1994/7135 [1:48:28<4:43:38, 3.31s/it]
28%|███████████████████████████▍ | 1995/7135 [1:48:31<4:42:50, 3.30s/it]
28%|███████████████████████████▍ | 1996/7135 [1:48:35<4:43:19, 3.31s/it]
28%|███████████████████████████▍ | 1997/7135 [1:48:39<4:59:40, 3.50s/it]
28%|███████████████████████████▍ | 1998/7135 [1:48:42<4:42:30, 3.30s/it]
28%|███████████████████████████▍ | 1999/7135 [1:48:45<4:43:17, 3.31s/it]
28%|███████████████████████████▍ | 2000/7135 [1:48:47<4:25:37, 3.10s/it]
{'loss': 0.7886, 'grad_norm': 6.25, 'learning_rate': 4.153656475888154e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 423.47, 'epoch': 2.8}
28%|███████████████████████████▍ | 2000/7135 [1:48:48<4:25:37, 3.10s/it]
28%|███████████████████████████▍ | 2001/7135 [1:48:51<4:34:48, 3.21s/it]
28%|███████████████████████████▍ | 2002/7135 [1:48:54<4:30:40, 3.16s/it]
28%|███████████████████████████▌ | 2003/7135 [1:48:57<4:27:27, 3.13s/it]
28%|███████████████████████████▌ | 2004/7135 [1:49:00<4:22:52, 3.07s/it]
28%|███████████████████████████▌ | 2005/7135 [1:49:03<4:28:02, 3.14s/it]
28%|███████████████████████████▌ | 2006/7135 [1:49:06<4:25:40, 3.11s/it]
28%|███████████████████████████▌ | 2007/7135 [1:49:10<4:41:08, 3.29s/it]
28%|███████████████████████████▌ | 2008/7135 [1:49:13<4:31:34, 3.18s/it]
28%|███████████████████████████▌ | 2009/7135 [1:49:17<4:44:05, 3.33s/it]
28%|███████████████████████████▌ | 2010/7135 [1:49:21<5:00:50, 3.52s/it]
{'loss': 0.8029, 'grad_norm': 3.71875, 'learning_rate': 4.1452671440968415e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.7, 'epoch': 2.82}
28%|███████████████████████████▌ | 2010/7135 [1:49:21<5:00:50, 3.52s/it]
28%|███████████████████████████▌ | 2011/7135 [1:49:24<5:08:56, 3.62s/it]
28%|███████████████████████████▋ | 2012/7135 [1:49:28<5:04:00, 3.56s/it]
28%|███████████████████████████▋ | 2013/7135 [1:49:30<4:39:40, 3.28s/it]
28%|███████████████████████████▋ | 2014/7135 [1:49:33<4:32:50, 3.20s/it]
28%|███████████████████████████▋ | 2015/7135 [1:49:37<4:40:08, 3.28s/it]
28%|███████████████████████████▋ | 2016/7135 [1:49:40<4:28:44, 3.15s/it]
28%|███████████████████████████▋ | 2017/7135 [1:49:44<4:59:33, 3.51s/it]
28%|███████████████████████████▋ | 2018/7135 [1:49:47<4:48:46, 3.39s/it]
28%|███████████████████████████▋ | 2019/7135 [1:49:50<4:41:34, 3.30s/it]
28%|███████████████████████████▋ | 2020/7135 [1:49:54<4:37:50, 3.26s/it]
{'loss': 0.7252, 'grad_norm': 4.96875, 'learning_rate': 4.136845002228871e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 402.53, 'epoch': 2.83}
28%|███████████████████████████▋ | 2020/7135 [1:49:54<4:37:50, 3.26s/it]
28%|███████████████████████████▊ | 2021/7135 [1:49:57<4:30:19, 3.17s/it]
28%|███████████████████████████▊ | 2022/7135 [1:50:00<4:41:15, 3.30s/it]
28%|███████████████████████████▊ | 2023/7135 [1:50:03<4:32:58, 3.20s/it]
28%|███████████████████████████▊ | 2024/7135 [1:50:06<4:33:45, 3.21s/it]
28%|███████████████████████████▊ | 2025/7135 [1:50:09<4:26:30, 3.13s/it]
28%|███████████████████████████▊ | 2026/7135 [1:50:12<4:22:37, 3.08s/it]
28%|███████████████████████████▊ | 2027/7135 [1:50:15<4:24:50, 3.11s/it]
28%|███████████████████████████▊ | 2028/7135 [1:50:18<4:17:05, 3.02s/it]
28%|███████████████████████████▊ | 2029/7135 [1:50:22<4:31:42, 3.19s/it]
28%|███████████████████████████▉ | 2030/7135 [1:50:25<4:28:29, 3.16s/it]
{'loss': 0.8041, 'grad_norm': 4.53125, 'learning_rate': 4.128390218239411e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.99, 'epoch': 2.84}
28%|███████████████████████████▉ | 2030/7135 [1:50:25<4:28:29, 3.16s/it]
28%|███████████████████████████▉ | 2031/7135 [1:50:28<4:32:06, 3.20s/it]
28%|███████████████████████████▉ | 2032/7135 [1:50:31<4:30:05, 3.18s/it]
28%|███████████████████████████▉ | 2033/7135 [1:50:34<4:28:18, 3.16s/it]
29%|███████████████████████████▉ | 2034/7135 [1:50:38<4:32:25, 3.20s/it]
29%|███████████████████████████▉ | 2035/7135 [1:50:41<4:25:57, 3.13s/it]
29%|███████████████████████████▉ | 2036/7135 [1:50:44<4:23:49, 3.10s/it]
29%|███████████████████████████▉ | 2037/7135 [1:50:47<4:17:36, 3.03s/it]
29%|███████████████████████████▉ | 2038/7135 [1:50:50<4:19:18, 3.05s/it]
29%|████████████████████████████ | 2039/7135 [1:50:53<4:14:36, 3.00s/it]
29%|████████████████████████████ | 2040/7135 [1:50:55<4:05:24, 2.89s/it]
{'loss': 0.8894, 'grad_norm': 4.375, 'learning_rate': 4.119902960734584e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 433.41, 'epoch': 2.86}
29%|████████████████████████████ | 2040/7135 [1:50:55<4:05:24, 2.89s/it]
29%|████████████████████████████ | 2041/7135 [1:50:59<4:24:28, 3.12s/it]
29%|████████████████████████████ | 2042/7135 [1:51:02<4:28:11, 3.16s/it]
29%|████████████████████████████ | 2043/7135 [1:51:05<4:29:16, 3.17s/it]
29%|████████████████████████████ | 2044/7135 [1:51:08<4:29:14, 3.17s/it]
29%|████████████████████████████ | 2045/7135 [1:51:12<4:29:26, 3.18s/it]
29%|████████████████████████████ | 2046/7135 [1:51:15<4:24:54, 3.12s/it]
29%|████████████████████████████ | 2047/7135 [1:51:18<4:23:01, 3.10s/it]
29%|████████████████████████████▏ | 2048/7135 [1:51:21<4:30:01, 3.18s/it]
29%|████████████████████████████▏ | 2049/7135 [1:51:24<4:31:16, 3.20s/it]
29%|████████████████████████████▏ | 2050/7135 [1:51:27<4:21:00, 3.08s/it]
{'loss': 0.7371, 'grad_norm': 5.40625, 'learning_rate': 4.1113833989681e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 384.75, 'epoch': 2.87}
29%|████████████████████████████▏ | 2050/7135 [1:51:27<4:21:00, 3.08s/it]
29%|████████████████████████████▏ | 2051/7135 [1:51:31<4:35:25, 3.25s/it]
29%|████████████████████████████▏ | 2052/7135 [1:51:34<4:42:19, 3.33s/it]
29%|████████████████████████████▏ | 2053/7135 [1:51:38<4:42:57, 3.34s/it]
29%|████████████████████████████▏ | 2054/7135 [1:51:41<4:37:36, 3.28s/it]
29%|████████████████████████████▏ | 2055/7135 [1:51:45<5:10:10, 3.66s/it]
29%|████████████████████████████▏ | 2056/7135 [1:51:49<5:10:34, 3.67s/it]
29%|████████████████████████████▎ | 2057/7135 [1:51:52<4:57:25, 3.51s/it]
29%|████████████████████████████▎ | 2058/7135 [1:51:55<4:41:55, 3.33s/it]
29%|████████████████████████████▎ | 2059/7135 [1:51:58<4:33:13, 3.23s/it]
29%|████████████████████████████▎ | 2060/7135 [1:52:01<4:26:00, 3.15s/it]
{'loss': 0.8187, 'grad_norm': 7.0, 'learning_rate': 4.102831702837883e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 483.71, 'epoch': 2.89}
29%|████████████████████████████▎ | 2060/7135 [1:52:01<4:26:00, 3.15s/it]
29%|████████████████████████████▎ | 2061/7135 [1:52:04<4:24:16, 3.13s/it]
29%|████████████████████████████▎ | 2062/7135 [1:52:07<4:24:22, 3.13s/it]
29%|████████████████████████████▎ | 2063/7135 [1:52:10<4:18:42, 3.06s/it]
29%|████████████████████████████▎ | 2064/7135 [1:52:13<4:25:32, 3.14s/it]
29%|████████████████████████████▎ | 2065/7135 [1:52:17<4:38:22, 3.29s/it]
29%|████████████████████████████▍ | 2066/7135 [1:52:21<4:41:48, 3.34s/it]
29%|████████████████████████████▍ | 2067/7135 [1:52:23<4:29:32, 3.19s/it]
29%|████████████████████████████▍ | 2068/7135 [1:52:27<4:43:31, 3.36s/it]
29%|████████████████████████████▍ | 2069/7135 [1:52:31<4:44:08, 3.37s/it]
29%|████████████████████████████▍ | 2070/7135 [1:52:34<4:44:02, 3.36s/it]
{'loss': 0.7017, 'grad_norm': 4.5, 'learning_rate': 4.094248042882687e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.17, 'epoch': 2.9}
29%|████████████████████████████▍ | 2070/7135 [1:52:34<4:44:02, 3.36s/it]
29%|████████████████████████████▍ | 2071/7135 [1:52:38<4:57:47, 3.53s/it]
29%|████████████████████████████▍ | 2072/7135 [1:52:41<4:47:13, 3.40s/it]
29%|████████████████████████████▍ | 2073/7135 [1:52:44<4:37:12, 3.29s/it]
29%|████████████████████████████▍ | 2074/7135 [1:52:47<4:29:46, 3.20s/it]
29%|████████████████████████████▌ | 2075/7135 [1:52:50<4:31:11, 3.22s/it]
29%|████████████████████████████▌ | 2076/7135 [1:52:54<4:35:50, 3.27s/it]
29%|████████████████████████████▌ | 2077/7135 [1:52:57<4:41:15, 3.34s/it]
29%|████████████████████████████▌ | 2078/7135 [1:53:01<4:59:14, 3.55s/it]
29%|████████████████████████████▌ | 2079/7135 [1:53:05<5:00:32, 3.57s/it]
29%|████████████████████████████▌ | 2080/7135 [1:53:08<4:54:42, 3.50s/it]
{'loss': 0.7757, 'grad_norm': 4.6875, 'learning_rate': 4.08563259027869e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.64, 'epoch': 2.91}
29%|████████████████████████████▌ | 2080/7135 [1:53:08<4:54:42, 3.50s/it]
29%|████████████████████████████▌ | 2081/7135 [1:53:11<4:38:16, 3.30s/it]
29%|████████████████████████████▌ | 2082/7135 [1:53:14<4:43:18, 3.36s/it]
29%|████████████████████████████▌ | 2083/7135 [1:53:17<4:34:22, 3.26s/it]
29%|████████████████████████████▌ | 2084/7135 [1:53:21<4:38:57, 3.31s/it]
29%|████████████████████████████▋ | 2085/7135 [1:53:24<4:36:09, 3.28s/it]
29%|████████████████████████████▋ | 2086/7135 [1:53:27<4:30:45, 3.22s/it]
29%|████████████████████████████▋ | 2087/7135 [1:53:30<4:28:36, 3.19s/it]
29%|████████████████████████████▋ | 2088/7135 [1:53:33<4:24:49, 3.15s/it]
29%|████████████████████████████▋ | 2089/7135 [1:53:37<4:25:43, 3.16s/it]
29%|████████████████████████████▋ | 2090/7135 [1:53:40<4:23:32, 3.13s/it]
{'loss': 0.8688, 'grad_norm': 5.625, 'learning_rate': 4.07698551683608e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.86, 'epoch': 2.93}
29%|████████████████████████████▋ | 2090/7135 [1:53:40<4:23:32, 3.13s/it]
29%|████████████████████████████▋ | 2091/7135 [1:53:43<4:25:38, 3.16s/it]
29%|████████████████████████████▋ | 2092/7135 [1:53:46<4:27:44, 3.19s/it]
29%|████████████████████████████▋ | 2093/7135 [1:53:49<4:17:50, 3.07s/it]
29%|████████████████████████████▊ | 2094/7135 [1:53:52<4:19:28, 3.09s/it]
29%|████████████████████████████▊ | 2095/7135 [1:53:55<4:12:58, 3.01s/it]
29%|████████████████████████████▊ | 2096/7135 [1:53:58<4:17:23, 3.06s/it]
29%|████████████████████████████▊ | 2097/7135 [1:54:01<4:09:09, 2.97s/it]
29%|████████████████████████████▊ | 2098/7135 [1:54:04<4:17:56, 3.07s/it]
29%|████████████████████████████▊ | 2099/7135 [1:54:07<4:19:48, 3.10s/it]
29%|████████████████████████████▊ | 2100/7135 [1:54:10<4:12:23, 3.01s/it]
{'loss': 0.6916, 'grad_norm': 6.21875, 'learning_rate': 4.0683069949956324e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 361.23, 'epoch': 2.94}
29%|████████████████████████████▊ | 2100/7135 [1:54:10<4:12:23, 3.01s/it]
29%|████████████████████████████▊ | 2101/7135 [1:54:13<4:05:46, 2.93s/it]
29%|████████████████████████████▊ | 2102/7135 [1:54:16<4:13:44, 3.02s/it]
29%|████████████████████████████▉ | 2103/7135 [1:54:20<4:29:35, 3.21s/it]
29%|████████████████████████████▉ | 2104/7135 [1:54:23<4:40:30, 3.35s/it]
30%|████████████████████████████▉ | 2105/7135 [1:54:26<4:29:53, 3.22s/it]
30%|████████████████████████████▉ | 2106/7135 [1:54:29<4:23:27, 3.14s/it]
30%|████████████████████████████▉ | 2107/7135 [1:54:33<4:33:31, 3.26s/it]
30%|████████████████████████████▉ | 2108/7135 [1:54:35<4:18:42, 3.09s/it]
30%|████████████████████████████▉ | 2109/7135 [1:54:38<4:10:57, 3.00s/it]
30%|████████████████████████████▉ | 2110/7135 [1:54:41<4:14:15, 3.04s/it]
{'loss': 0.7561, 'grad_norm': 4.1875, 'learning_rate': 4.059597197825273e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.2, 'epoch': 2.96}
30%|████████████████████████████▉ | 2110/7135 [1:54:41<4:14:15, 3.04s/it]
30%|████████████████████████████▉ | 2111/7135 [1:54:45<4:35:41, 3.29s/it]
30%|█████████████████████████████ | 2112/7135 [1:54:48<4:31:55, 3.25s/it]
30%|█████████████████████████████ | 2113/7135 [1:54:51<4:27:52, 3.20s/it]
30%|█████████████████████████████ | 2114/7135 [1:54:55<4:35:46, 3.30s/it]
30%|█████████████████████████████ | 2115/7135 [1:54:58<4:37:13, 3.31s/it]
30%|█████████████████████████████ | 2116/7135 [1:55:01<4:24:34, 3.16s/it]
30%|█████████████████████████████ | 2117/7135 [1:55:04<4:28:50, 3.21s/it]
30%|█████████████████████████████ | 2118/7135 [1:55:07<4:20:16, 3.11s/it]
30%|█████████████████████████████ | 2119/7135 [1:55:10<4:11:38, 3.01s/it]
30%|█████████████████████████████ | 2120/7135 [1:55:13<4:15:54, 3.06s/it]
{'loss': 0.8648, 'grad_norm': 4.625, 'learning_rate': 4.050856299016617e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 429.24, 'epoch': 2.97}
30%|█████████████████████████████ | 2120/7135 [1:55:13<4:15:54, 3.06s/it]
30%|█████████████████████████████▏ | 2121/7135 [1:55:17<4:22:45, 3.14s/it]
30%|█████████████████████████████▏ | 2122/7135 [1:55:20<4:35:41, 3.30s/it]
30%|█████████████████████████████▏ | 2123/7135 [1:55:23<4:21:46, 3.13s/it]
30%|█████████████████████████████▏ | 2124/7135 [1:55:27<4:32:45, 3.27s/it]
30%|█████████████████████████████▏ | 2125/7135 [1:55:30<4:43:22, 3.39s/it]
30%|█████████████████████████████▏ | 2126/7135 [1:55:33<4:29:45, 3.23s/it]
30%|█████████████████████████████▏ | 2127/7135 [1:55:36<4:22:25, 3.14s/it]
30%|█████████████████████████████▏ | 2128/7135 [1:55:39<4:26:00, 3.19s/it]
30%|█████████████████████████████▏ | 2129/7135 [1:55:43<4:31:59, 3.26s/it]
30%|█████████████████████████████▎ | 2130/7135 [1:55:46<4:36:20, 3.31s/it]
{'loss': 0.619, 'grad_norm': 2.3125, 'learning_rate': 4.042084472881516e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.54, 'epoch': 2.98}
30%|█████████████████████████████▎ | 2130/7135 [1:55:46<4:36:20, 3.31s/it]
30%|█████████████████████████████▎ | 2131/7135 [1:55:49<4:22:52, 3.15s/it]
30%|█████████████████████████████▎ | 2132/7135 [1:55:52<4:15:50, 3.07s/it]
30%|█████████████████████████████▎ | 2133/7135 [1:55:55<4:26:29, 3.20s/it]
30%|█████████████████████████████▎ | 2134/7135 [1:55:59<4:27:14, 3.21s/it]
30%|█████████████████████████████▎ | 2135/7135 [1:56:02<4:23:38, 3.16s/it]
30%|█████████████████████████████▎ | 2136/7135 [1:56:05<4:28:20, 3.22s/it]
30%|█████████████████████████████▎ | 2137/7135 [1:56:08<4:21:29, 3.14s/it]
30%|█████████████████████████████▎ | 2138/7135 [1:56:11<4:28:17, 3.22s/it]
30%|█████████████████████████████▍ | 2139/7135 [1:56:15<4:24:17, 3.17s/it]
30%|█████████████████████████████▍ | 2140/7135 [1:56:18<4:29:11, 3.23s/it]
{'loss': 0.7995, 'grad_norm': 4.90625, 'learning_rate': 4.033281894348575e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.22, 'epoch': 3.0}
30%|█████████████████████████████▍ | 2140/7135 [1:56:18<4:29:11, 3.23s/it]
30%|█████████████████████████████▍ | 2141/7135 [1:56:22<4:40:47, 3.37s/it]
30%|█████████████████████████████▍ | 2142/7135 [1:56:23<4:01:20, 2.90s/it][2025-12-23 16:20:29,528] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-2142
30%|█████████████████████████████▏ | 2143/7135 [1:57:26<28:51:20, 20.81s/it]
30%|█████████████████████████████▏ | 2144/7135 [1:57:29<21:18:24, 15.37s/it]
30%|█████████████████████████████▏ | 2145/7135 [1:57:32<16:15:48, 11.73s/it]
30%|█████████████████████████████▏ | 2146/7135 [1:57:35<12:45:55, 9.21s/it]
30%|█████████████████████████████▏ | 2147/7135 [1:57:38<10:10:56, 7.35s/it]
30%|█████████████████████████████▌ | 2148/7135 [1:57:42<8:31:15, 6.15s/it]
30%|█████████████████████████████▌ | 2149/7135 [1:57:45<7:18:35, 5.28s/it]
30%|█████████████████████████████▌ | 2150/7135 [1:57:48<6:14:18, 4.51s/it]
{'loss': 0.6804, 'grad_norm': 6.28125, 'learning_rate': 4.024448738959668e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 411.43, 'epoch': 3.01}
30%|█████████████████████████████▌ | 2150/7135 [1:57:48<6:14:18, 4.51s/it]
30%|█████████████████████████████▌ | 2151/7135 [1:57:51<5:57:41, 4.31s/it]
30%|█████████████████████████████▌ | 2152/7135 [1:57:55<5:35:36, 4.04s/it]
30%|█████████████████████████████▌ | 2153/7135 [1:57:58<5:11:11, 3.75s/it]
30%|█████████████████████████████▌ | 2154/7135 [1:58:01<4:52:52, 3.53s/it]
30%|█████████████████████████████▌ | 2155/7135 [1:58:04<4:38:58, 3.36s/it]
30%|█████████████████████████████▌ | 2156/7135 [1:58:07<4:41:01, 3.39s/it]
30%|█████████████████████████████▋ | 2157/7135 [1:58:10<4:27:29, 3.22s/it]
30%|█████████████████████████████▋ | 2158/7135 [1:58:13<4:23:00, 3.17s/it]
30%|█████████████████████████████▋ | 2159/7135 [1:58:17<4:39:41, 3.37s/it]
30%|█████████████████████████████▋ | 2160/7135 [1:58:20<4:37:34, 3.35s/it]
{'loss': 0.724, 'grad_norm': 4.5625, 'learning_rate': 4.015585182866436e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.84, 'epoch': 3.03}
30%|█████████████████████████████▋ | 2160/7135 [1:58:20<4:37:34, 3.35s/it]
30%|█████████████████████████████▋ | 2161/7135 [1:58:24<4:48:01, 3.47s/it]
30%|█████████████████████████████▋ | 2162/7135 [1:58:27<4:46:11, 3.45s/it]
30%|█████████████████████████████▋ | 2163/7135 [1:58:31<4:51:37, 3.52s/it]
30%|█████████████████████████████▋ | 2164/7135 [1:58:34<4:32:48, 3.29s/it]
30%|█████████████████████████████▋ | 2165/7135 [1:58:37<4:31:40, 3.28s/it]
30%|█████████████████████████████▊ | 2166/7135 [1:58:40<4:24:58, 3.20s/it]
30%|█████████████████████████████▊ | 2167/7135 [1:58:44<4:38:14, 3.36s/it]
30%|█████████████████████████████▊ | 2168/7135 [1:58:47<4:30:26, 3.27s/it]
30%|█████████████████████████████▊ | 2169/7135 [1:58:50<4:16:20, 3.10s/it]
30%|█████████████████████████████▊ | 2170/7135 [1:58:52<4:08:33, 3.00s/it]
{'loss': 0.7694, 'grad_norm': 4.46875, 'learning_rate': 4.006691402826771e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.95, 'epoch': 3.04}
30%|█████████████████████████████▊ | 2170/7135 [1:58:52<4:08:33, 3.00s/it]
30%|█████████████████████████████▊ | 2171/7135 [1:58:56<4:11:00, 3.03s/it]
30%|█████████████████████████████▊ | 2172/7135 [1:58:58<4:05:57, 2.97s/it]
30%|█████████████████████████████▊ | 2173/7135 [1:59:02<4:21:28, 3.16s/it]
30%|█████████████████████████████▊ | 2174/7135 [1:59:05<4:10:07, 3.03s/it]
30%|█████████████████████████████▊ | 2175/7135 [1:59:08<4:09:36, 3.02s/it]
30%|█████████████████████████████▉ | 2176/7135 [1:59:11<4:19:04, 3.13s/it]
31%|█████████████████████████████▉ | 2177/7135 [1:59:14<4:19:48, 3.14s/it]
31%|█████████████████████████████▉ | 2178/7135 [1:59:18<4:27:46, 3.24s/it]
31%|█████████████████████████████▉ | 2179/7135 [1:59:21<4:19:07, 3.14s/it]
31%|█████████████████████████████▉ | 2180/7135 [1:59:24<4:35:42, 3.34s/it]
{'loss': 0.8669, 'grad_norm': 3.0, 'learning_rate': 3.997767576201296e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.62, 'epoch': 3.05}
31%|█████████████████████████████▉ | 2180/7135 [1:59:24<4:35:42, 3.34s/it]
31%|█████████████████████████████▉ | 2181/7135 [1:59:28<4:31:25, 3.29s/it]
31%|█████████████████████████████▉ | 2182/7135 [1:59:31<4:32:44, 3.30s/it]
31%|█████████████████████████████▉ | 2183/7135 [1:59:34<4:37:59, 3.37s/it]
31%|█████████████████████████████▉ | 2184/7135 [1:59:38<4:40:21, 3.40s/it]
31%|██████████████████████████████ | 2185/7135 [1:59:41<4:39:24, 3.39s/it]
31%|██████████████████████████████ | 2186/7135 [1:59:44<4:27:43, 3.25s/it]
31%|██████████████████████████████ | 2187/7135 [1:59:47<4:25:07, 3.21s/it]
31%|██████████████████████████████ | 2188/7135 [1:59:50<4:19:02, 3.14s/it]
31%|██████████████████████████████ | 2189/7135 [1:59:53<4:13:11, 3.07s/it]
31%|██████████████████████████████ | 2190/7135 [1:59:57<4:25:54, 3.23s/it]
{'loss': 0.6677, 'grad_norm': 5.53125, 'learning_rate': 3.988813880949826e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 333.1, 'epoch': 3.07}
31%|██████████████████████████████ | 2190/7135 [1:59:57<4:25:54, 3.23s/it]
31%|██████████████████████████████ | 2191/7135 [2:00:00<4:26:02, 3.23s/it]
31%|██████████████████████████████ | 2192/7135 [2:00:03<4:27:51, 3.25s/it]
31%|██████████████████████████████ | 2193/7135 [2:00:07<4:30:26, 3.28s/it]
31%|██████████████████████████████▏ | 2194/7135 [2:00:10<4:28:55, 3.27s/it]
31%|██████████████████████████████▏ | 2195/7135 [2:00:13<4:27:44, 3.25s/it]
31%|██████████████████████████████▏ | 2196/7135 [2:00:17<4:37:04, 3.37s/it]
31%|██████████████████████████████▏ | 2197/7135 [2:00:21<4:54:13, 3.58s/it]
31%|██████████████████████████████▏ | 2198/7135 [2:00:24<4:48:19, 3.50s/it]
31%|██████████████████████████████▏ | 2199/7135 [2:00:28<4:46:29, 3.48s/it]
31%|██████████████████████████████▏ | 2200/7135 [2:00:31<4:45:07, 3.47s/it]
{'loss': 0.7983, 'grad_norm': 4.0, 'learning_rate': 3.979830495627816e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.32, 'epoch': 3.08}
31%|██████████████████████████████▏ | 2200/7135 [2:00:31<4:45:07, 3.47s/it]
31%|██████████████████████████████▏ | 2201/7135 [2:00:34<4:35:58, 3.36s/it]
31%|██████████████████████████████▏ | 2202/7135 [2:00:37<4:34:25, 3.34s/it]
31%|██████████████████████████████▎ | 2203/7135 [2:00:40<4:21:06, 3.18s/it]
31%|██████████████████████████████▎ | 2204/7135 [2:00:44<4:27:53, 3.26s/it]
31%|██████████████████████████████▎ | 2205/7135 [2:00:47<4:33:15, 3.33s/it]
31%|██████████████████████████████▎ | 2206/7135 [2:00:50<4:27:58, 3.26s/it]
31%|██████████████████████████████▎ | 2207/7135 [2:00:53<4:19:18, 3.16s/it]
31%|██████████████████████████████▎ | 2208/7135 [2:00:56<4:12:59, 3.08s/it]
31%|██████████████████████████████▎ | 2209/7135 [2:00:59<4:12:05, 3.07s/it]
31%|██████████████████████████████▎ | 2210/7135 [2:01:03<4:20:33, 3.17s/it]
{'loss': 0.7708, 'grad_norm': 4.34375, 'learning_rate': 3.970817599382809e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.83, 'epoch': 3.1}
31%|██████████████████████████████▎ | 2210/7135 [2:01:03<4:20:33, 3.17s/it]
31%|██████████████████████████████▎ | 2211/7135 [2:01:06<4:22:04, 3.19s/it]
31%|██████████████████████████████▍ | 2212/7135 [2:01:09<4:21:23, 3.19s/it]
31%|██████████████████████████████▍ | 2213/7135 [2:01:12<4:15:10, 3.11s/it]
31%|██████████████████████████████▍ | 2214/7135 [2:01:15<4:12:05, 3.07s/it]
31%|██████████████████████████████▍ | 2215/7135 [2:01:18<4:11:09, 3.06s/it]
31%|██████████████████████████████▍ | 2216/7135 [2:01:21<4:10:20, 3.05s/it]
31%|██████████████████████████████▍ | 2217/7135 [2:01:24<4:15:11, 3.11s/it]
31%|██████████████████████████████▍ | 2218/7135 [2:01:27<4:17:37, 3.14s/it]
31%|██████████████████████████████▍ | 2219/7135 [2:01:31<4:19:37, 3.17s/it]
31%|██████████████████████████████▍ | 2220/7135 [2:01:34<4:21:27, 3.19s/it]
{'loss': 0.8085, 'grad_norm': 5.09375, 'learning_rate': 3.9617753719508525e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.61, 'epoch': 3.11}
31%|██████████████████████████████▍ | 2220/7135 [2:01:34<4:21:27, 3.19s/it]
31%|██████████████████████████████▌ | 2221/7135 [2:01:38<4:40:19, 3.42s/it]
31%|██████████████████████████████▌ | 2222/7135 [2:01:41<4:45:09, 3.48s/it]
31%|██████████████████████████████▌ | 2223/7135 [2:01:44<4:31:55, 3.32s/it]
31%|██████████████████████████████▌ | 2224/7135 [2:01:48<4:32:01, 3.32s/it]
31%|██████████████████████████████▌ | 2225/7135 [2:01:51<4:23:00, 3.21s/it]
31%|██████████████████████████████▌ | 2226/7135 [2:01:54<4:23:41, 3.22s/it]
31%|██████████████████████████████▌ | 2227/7135 [2:01:57<4:11:54, 3.08s/it]
31%|██████████████████████████████▌ | 2228/7135 [2:02:00<4:12:27, 3.09s/it]
31%|██████████████████████████████▌ | 2229/7135 [2:02:03<4:11:47, 3.08s/it]
31%|██████████████████████████████▋ | 2230/7135 [2:02:06<4:19:44, 3.18s/it]
{'loss': 0.7421, 'grad_norm': 3.59375, 'learning_rate': 3.9527039936529225e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 349.9, 'epoch': 3.12}
31%|██████████████████████████████▋ | 2230/7135 [2:02:06<4:19:44, 3.18s/it]
31%|██████████████████████████████▋ | 2231/7135 [2:02:09<4:18:44, 3.17s/it]
31%|██████████████████████████████▋ | 2232/7135 [2:02:12<4:08:05, 3.04s/it]
31%|██████████████████████████████▋ | 2233/7135 [2:02:15<3:59:50, 2.94s/it]
31%|██████████████████████████████▋ | 2234/7135 [2:02:18<3:58:34, 2.92s/it]
31%|██████████████████████████████▋ | 2235/7135 [2:02:22<4:28:21, 3.29s/it]
31%|██████████████████████████████▋ | 2236/7135 [2:02:25<4:16:43, 3.14s/it]
31%|██████████████████████████████▋ | 2237/7135 [2:02:28<4:10:58, 3.07s/it]
31%|██████████████████████████████▋ | 2238/7135 [2:02:31<4:14:18, 3.12s/it]
31%|██████████████████████████████▊ | 2239/7135 [2:02:34<4:15:50, 3.14s/it]
31%|██████████████████████████████▊ | 2240/7135 [2:02:37<4:15:04, 3.13s/it]
{'loss': 0.7332, 'grad_norm': 4.90625, 'learning_rate': 3.943603645391321e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 417.81, 'epoch': 3.14}
31%|██████████████████████████████▊ | 2240/7135 [2:02:37<4:15:04, 3.13s/it]
31%|██████████████████████████████▊ | 2241/7135 [2:02:40<4:18:30, 3.17s/it]
31%|██████████████████████████████▊ | 2242/7135 [2:02:44<4:27:38, 3.28s/it]
31%|██████████████████████████████▊ | 2243/7135 [2:02:47<4:20:28, 3.19s/it]
31%|██████████████████████████████▊ | 2244/7135 [2:02:50<4:18:26, 3.17s/it]
31%|██████████████████████████████▊ | 2245/7135 [2:02:54<4:39:04, 3.42s/it]
31%|██████████████████████████████▊ | 2246/7135 [2:02:58<4:43:42, 3.48s/it]
31%|██████████████████████████████▊ | 2247/7135 [2:03:01<4:42:13, 3.46s/it]
32%|██████████████████████████████▉ | 2248/7135 [2:03:04<4:31:50, 3.34s/it]
32%|██████████████████████████████▉ | 2249/7135 [2:03:08<4:39:54, 3.44s/it]
32%|██████████████████████████████▉ | 2250/7135 [2:03:11<4:38:24, 3.42s/it]
{'loss': 0.9052, 'grad_norm': 4.71875, 'learning_rate': 3.9344745086460765e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 432.99, 'epoch': 3.15}
32%|██████████████████████████████▉ | 2250/7135 [2:03:11<4:38:24, 3.42s/it]
32%|██████████████████████████████▉ | 2251/7135 [2:03:14<4:27:21, 3.28s/it]
32%|██████████████████████████████▉ | 2252/7135 [2:03:17<4:15:33, 3.14s/it]
32%|██████████████████████████████▉ | 2253/7135 [2:03:20<4:25:01, 3.26s/it]
32%|██████████████████████████████▉ | 2254/7135 [2:03:23<4:18:42, 3.18s/it]
32%|██████████████████████████████▉ | 2255/7135 [2:03:27<4:26:15, 3.27s/it]
32%|██████████████████████████████▉ | 2256/7135 [2:03:31<4:32:28, 3.35s/it]
32%|███████████████████████████████ | 2257/7135 [2:03:34<4:42:44, 3.48s/it]
32%|███████████████████████████████ | 2258/7135 [2:03:37<4:26:53, 3.28s/it]
32%|███████████████████████████████ | 2259/7135 [2:03:40<4:15:37, 3.15s/it]
32%|███████████████████████████████ | 2260/7135 [2:03:43<4:03:19, 2.99s/it]
{'loss': 0.6605, 'grad_norm': 4.4375, 'learning_rate': 3.925316765471316e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 457.46, 'epoch': 3.17}
32%|███████████████████████████████ | 2260/7135 [2:03:43<4:03:19, 2.99s/it]
32%|███████████████████████████████ | 2261/7135 [2:03:47<4:26:09, 3.28s/it]
32%|███████████████████████████████ | 2262/7135 [2:03:49<4:18:24, 3.18s/it]
32%|███████████████████████████████ | 2263/7135 [2:03:52<4:09:53, 3.08s/it]
32%|███████████████████████████████ | 2264/7135 [2:03:56<4:22:31, 3.23s/it]
32%|███████████████████████████████ | 2265/7135 [2:03:59<4:24:57, 3.26s/it]
32%|███████████████████████████████ | 2266/7135 [2:04:03<4:27:22, 3.29s/it]
32%|███████████████████████████████▏ | 2267/7135 [2:04:06<4:18:14, 3.18s/it]
32%|███████████████████████████████▏ | 2268/7135 [2:04:09<4:22:02, 3.23s/it]
32%|███████████████████████████████▏ | 2269/7135 [2:04:12<4:09:48, 3.08s/it]
32%|███████████████████████████████▏ | 2270/7135 [2:04:15<4:08:17, 3.06s/it]
{'loss': 0.688, 'grad_norm': 5.0625, 'learning_rate': 3.9161305984916415e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.99, 'epoch': 3.18}
32%|███████████████████████████████▏ | 2270/7135 [2:04:15<4:08:17, 3.06s/it]
32%|███████████████████████████████▏ | 2271/7135 [2:04:18<4:17:48, 3.18s/it]
32%|███████████████████████████████▏ | 2272/7135 [2:04:21<4:22:34, 3.24s/it]
32%|███████████████████████████████▏ | 2273/7135 [2:04:24<4:11:48, 3.11s/it]
32%|███████████████████████████████▏ | 2274/7135 [2:04:28<4:17:59, 3.18s/it]
32%|███████████████████████████████▏ | 2275/7135 [2:04:31<4:13:59, 3.14s/it]
32%|███████████████████████████████▎ | 2276/7135 [2:04:34<4:14:46, 3.15s/it]
32%|███████████████████████████████▎ | 2277/7135 [2:04:37<4:18:40, 3.19s/it]
32%|███████████████████████████████▎ | 2278/7135 [2:04:40<4:16:38, 3.17s/it]
32%|███████████████████████████████▎ | 2279/7135 [2:04:43<4:08:58, 3.08s/it]
32%|███████████████████████████████▎ | 2280/7135 [2:04:46<4:04:13, 3.02s/it]
{'loss': 0.809, 'grad_norm': 4.09375, 'learning_rate': 3.906916190898484e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 428.59, 'epoch': 3.19}
32%|███████████████████████████████▎ | 2280/7135 [2:04:46<4:04:13, 3.02s/it]
32%|███████████████████████████████▎ | 2281/7135 [2:04:49<4:00:23, 2.97s/it]
32%|███████████████████████████████▎ | 2282/7135 [2:04:52<4:02:54, 3.00s/it]
32%|███████████████████████████████▎ | 2283/7135 [2:04:55<4:11:15, 3.11s/it]
32%|███████████████████████████████▎ | 2284/7135 [2:04:58<4:05:15, 3.03s/it]
32%|███████████████████████████████▍ | 2285/7135 [2:05:01<4:00:38, 2.98s/it]
32%|███████████████████████████████▍ | 2286/7135 [2:05:04<4:04:31, 3.03s/it]
32%|███████████████████████████████▍ | 2287/7135 [2:05:07<4:09:05, 3.08s/it]
32%|███████████████████████████████▍ | 2288/7135 [2:05:10<4:06:20, 3.05s/it]
32%|███████████████████████████████▍ | 2289/7135 [2:05:14<4:16:04, 3.17s/it]
32%|███████████████████████████████▍ | 2290/7135 [2:05:18<4:34:56, 3.40s/it]
{'loss': 0.7009, 'grad_norm': 4.4375, 'learning_rate': 3.8976737264464505e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 281.53, 'epoch': 3.21}
32%|███████████████████████████████▍ | 2290/7135 [2:05:18<4:34:56, 3.40s/it]
32%|███████████████████████████████▍ | 2291/7135 [2:05:21<4:35:41, 3.41s/it]
32%|███████████████████████████████▍ | 2292/7135 [2:05:24<4:30:49, 3.36s/it]
32%|███████████████████████████████▍ | 2293/7135 [2:05:28<4:31:21, 3.36s/it]
32%|███████████████████████████████▌ | 2294/7135 [2:05:31<4:33:11, 3.39s/it]
32%|███████████████████████████████▌ | 2295/7135 [2:05:35<4:34:25, 3.40s/it]
32%|███████████████████████████████▌ | 2296/7135 [2:05:38<4:29:30, 3.34s/it]
32%|███████████████████████████████▌ | 2297/7135 [2:05:41<4:34:25, 3.40s/it]
32%|███████████████████████████████▌ | 2298/7135 [2:05:45<4:29:34, 3.34s/it]
32%|███████████████████████████████▌ | 2299/7135 [2:05:48<4:23:46, 3.27s/it]
32%|███████████████████████████████▌ | 2300/7135 [2:05:52<4:37:51, 3.45s/it]
{'loss': 0.7401, 'grad_norm': 1.234375, 'learning_rate': 3.888403389449663e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.84, 'epoch': 3.22}
32%|███████████████████████████████▌ | 2300/7135 [2:05:52<4:37:51, 3.45s/it]
32%|███████████████████████████████▌ | 2301/7135 [2:05:54<4:22:48, 3.26s/it]
32%|███████████████████████████████▌ | 2302/7135 [2:05:58<4:33:16, 3.39s/it]
32%|███████████████████████████████▋ | 2303/7135 [2:06:02<4:55:00, 3.66s/it]
32%|███████████████████████████████▋ | 2304/7135 [2:06:06<4:45:03, 3.54s/it]
32%|███████████████████████████████▋ | 2305/7135 [2:06:09<4:46:57, 3.56s/it]
32%|███████████████████████████████▋ | 2306/7135 [2:06:12<4:35:30, 3.42s/it]
32%|███████████████████████████████▋ | 2307/7135 [2:06:16<4:37:31, 3.45s/it]
32%|███████████████████████████████▋ | 2308/7135 [2:06:19<4:22:31, 3.26s/it]
32%|███████████████████████████████▋ | 2309/7135 [2:06:22<4:22:01, 3.26s/it]
32%|███████████████████████████████▋ | 2310/7135 [2:06:26<4:32:10, 3.38s/it]
{'loss': 0.6869, 'grad_norm': 4.4375, 'learning_rate': 3.87910536477808e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.59, 'epoch': 3.24}
32%|███████████████████████████████▋ | 2310/7135 [2:06:26<4:32:10, 3.38s/it]
32%|███████████████████████████████▋ | 2311/7135 [2:06:29<4:26:39, 3.32s/it]
32%|███████████████████████████████▊ | 2312/7135 [2:06:32<4:20:08, 3.24s/it]
32%|███████████████████████████████▊ | 2313/7135 [2:06:35<4:21:34, 3.25s/it]
32%|███████████████████████████████▊ | 2314/7135 [2:06:38<4:12:44, 3.15s/it]
32%|███████████████████████████████▊ | 2315/7135 [2:06:41<4:20:39, 3.24s/it]
32%|███████████████████████████████▊ | 2316/7135 [2:06:45<4:27:01, 3.32s/it]
32%|███████████████████████████████▊ | 2317/7135 [2:06:48<4:26:46, 3.32s/it]
32%|███████████████████████████████▊ | 2318/7135 [2:06:51<4:23:27, 3.28s/it]
33%|███████████████████████████████▊ | 2319/7135 [2:06:55<4:18:30, 3.22s/it]
33%|███████████████████████████████▊ | 2320/7135 [2:06:58<4:22:06, 3.27s/it]
{'loss': 0.6571, 'grad_norm': 6.15625, 'learning_rate': 3.869779837853808e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.8, 'epoch': 3.25}
33%|███████████████████████████████▊ | 2320/7135 [2:06:58<4:22:06, 3.27s/it]
33%|███████████████████████████████▉ | 2321/7135 [2:07:01<4:08:07, 3.09s/it]
33%|███████████████████████████████▉ | 2322/7135 [2:07:04<4:08:19, 3.10s/it]
33%|███████████████████████████████▉ | 2323/7135 [2:07:07<4:12:52, 3.15s/it]
33%|███████████████████████████████▉ | 2324/7135 [2:07:10<4:05:04, 3.06s/it]
33%|███████████████████████████████▉ | 2325/7135 [2:07:13<4:14:07, 3.17s/it]
33%|███████████████████████████████▉ | 2326/7135 [2:07:16<4:10:29, 3.13s/it]
33%|███████████████████████████████▉ | 2327/7135 [2:07:19<4:10:36, 3.13s/it]
33%|███████████████████████████████▉ | 2328/7135 [2:07:23<4:12:57, 3.16s/it]
33%|███████████████████████████████▉ | 2329/7135 [2:07:26<4:17:04, 3.21s/it]
33%|████████████████████████████████ | 2330/7135 [2:07:29<4:09:47, 3.12s/it]
{'loss': 0.7976, 'grad_norm': 4.375, 'learning_rate': 3.860426994647408e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 426.25, 'epoch': 3.26}
33%|████████████████████████████████ | 2330/7135 [2:07:29<4:09:47, 3.12s/it]
33%|████████████████████████████████ | 2331/7135 [2:07:32<4:07:23, 3.09s/it]
33%|████████████████████████████████ | 2332/7135 [2:07:35<4:04:06, 3.05s/it]
33%|████████████████████████████████ | 2333/7135 [2:07:38<4:10:09, 3.13s/it]
33%|████████████████████████████████ | 2334/7135 [2:07:42<4:21:14, 3.26s/it]
33%|████████████████████████████████ | 2335/7135 [2:07:45<4:21:22, 3.27s/it]
33%|████████████████████████████████ | 2336/7135 [2:07:48<4:18:47, 3.24s/it]
33%|████████████████████████████████ | 2337/7135 [2:07:52<4:36:33, 3.46s/it]
33%|████████████████████████████████ | 2338/7135 [2:07:55<4:16:41, 3.21s/it]
33%|████████████████████████████████▏ | 2339/7135 [2:07:59<4:28:32, 3.36s/it]
33%|████████████████████████████████▏ | 2340/7135 [2:08:02<4:41:39, 3.52s/it]
{'loss': 1.0336, 'grad_norm': 3.625, 'learning_rate': 3.851047021674186e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 390.5, 'epoch': 3.28}
33%|████████████████████████████████▏ | 2340/7135 [2:08:02<4:41:39, 3.52s/it]
33%|████████████████████████████████▏ | 2341/7135 [2:08:06<4:34:15, 3.43s/it]
33%|████████████████████████████████▏ | 2342/7135 [2:08:09<4:21:37, 3.28s/it]
33%|████████████████████████████████▏ | 2343/7135 [2:08:12<4:27:55, 3.35s/it]
33%|████████████████████████████████▏ | 2344/7135 [2:08:15<4:18:04, 3.23s/it]
33%|████████████████████████████████▏ | 2345/7135 [2:08:18<4:21:13, 3.27s/it]
33%|████████████████████████████████▏ | 2346/7135 [2:08:22<4:18:57, 3.24s/it]
33%|████████████████████████████████▏ | 2347/7135 [2:08:25<4:18:43, 3.24s/it]
33%|████████████████████████████████▎ | 2348/7135 [2:08:28<4:27:00, 3.35s/it]
33%|████████████████████████████████▎ | 2349/7135 [2:08:31<4:21:04, 3.27s/it]
33%|████████████████████████████████▎ | 2350/7135 [2:08:35<4:20:57, 3.27s/it]
{'loss': 0.7298, 'grad_norm': 5.1875, 'learning_rate': 3.8416401059904685e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 353.49, 'epoch': 3.29}
33%|████████████████████████████████▎ | 2350/7135 [2:08:35<4:20:57, 3.27s/it]
33%|████████████████████████████████▎ | 2351/7135 [2:08:38<4:15:51, 3.21s/it]
33%|████████████████████████████████▎ | 2352/7135 [2:08:41<4:18:53, 3.25s/it]
33%|████████████████████████████████▎ | 2353/7135 [2:08:44<4:16:22, 3.22s/it]
33%|████████████████████████████████▎ | 2354/7135 [2:08:48<4:17:12, 3.23s/it]
33%|████████████████████████████████▎ | 2355/7135 [2:08:51<4:21:09, 3.28s/it]
33%|████████████████████████████████▎ | 2356/7135 [2:08:55<4:35:17, 3.46s/it]
33%|████████████████████████████████▎ | 2357/7135 [2:08:59<5:02:58, 3.80s/it]
33%|████████████████████████████████▍ | 2358/7135 [2:09:02<4:43:26, 3.56s/it]
33%|████████████████████████████████▍ | 2359/7135 [2:09:06<4:37:58, 3.49s/it]
33%|████████████████████████████████▍ | 2360/7135 [2:09:09<4:33:05, 3.43s/it]
{'loss': 0.8106, 'grad_norm': 3.171875, 'learning_rate': 3.832206435189881e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.65, 'epoch': 3.31}
33%|████████████████████████████████▍ | 2360/7135 [2:09:09<4:33:05, 3.43s/it]
33%|████████████████████████████████▍ | 2361/7135 [2:09:12<4:30:46, 3.40s/it]
33%|████████████████████████████████▍ | 2362/7135 [2:09:16<4:35:30, 3.46s/it]
33%|████████████████████████████████▍ | 2363/7135 [2:09:19<4:18:50, 3.25s/it]
33%|████████████████████████████████▍ | 2364/7135 [2:09:22<4:15:40, 3.22s/it]
33%|████████████████████████████████▍ | 2365/7135 [2:09:25<4:12:35, 3.18s/it]
33%|████████████████████████████████▍ | 2366/7135 [2:09:29<4:22:36, 3.30s/it]
33%|████████████████████████████████▌ | 2367/7135 [2:09:32<4:29:30, 3.39s/it]
33%|████████████████████████████████▌ | 2368/7135 [2:09:35<4:18:11, 3.25s/it]
33%|████████████████████████████████▌ | 2369/7135 [2:09:38<4:20:39, 3.28s/it]
33%|████████████████████████████████▌ | 2370/7135 [2:09:42<4:20:37, 3.28s/it]
{'loss': 0.652, 'grad_norm': 5.9375, 'learning_rate': 3.822746197399599e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 412.21, 'epoch': 3.32}
33%|████████████████████████████████▌ | 2370/7135 [2:09:42<4:20:37, 3.28s/it]
33%|████████████████████████████████▌ | 2371/7135 [2:09:45<4:18:08, 3.25s/it]
33%|████████████████████████████████▌ | 2372/7135 [2:09:48<4:19:56, 3.27s/it]
33%|████████████████████████████████▌ | 2373/7135 [2:09:51<4:11:17, 3.17s/it]
33%|████████████████████████████████▌ | 2374/7135 [2:09:55<4:20:33, 3.28s/it]
33%|████████████████████████████████▌ | 2375/7135 [2:09:58<4:10:56, 3.16s/it]
33%|████████████████████████████████▋ | 2376/7135 [2:10:01<4:26:35, 3.36s/it]
33%|████████████████████████████████▋ | 2377/7135 [2:10:05<4:21:43, 3.30s/it]
33%|████████████████████████████████▋ | 2378/7135 [2:10:07<4:11:37, 3.17s/it]
33%|████████████████████████████████▋ | 2379/7135 [2:10:11<4:11:14, 3.17s/it]
33%|████████████████████████████████▋ | 2380/7135 [2:10:15<4:29:41, 3.40s/it]
{'loss': 0.6596, 'grad_norm': 5.34375, 'learning_rate': 3.8132595812766005e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 335.54, 'epoch': 3.33}
33%|████████████████████████████████▋ | 2380/7135 [2:10:15<4:29:41, 3.40s/it]
33%|████████████████████████████████▋ | 2381/7135 [2:10:17<4:12:49, 3.19s/it]
33%|████████████████████████████████▋ | 2382/7135 [2:10:20<4:10:25, 3.16s/it]
33%|████████████████████████████████▋ | 2383/7135 [2:10:23<4:05:37, 3.10s/it]
33%|████████████████████████████████▋ | 2384/7135 [2:10:26<4:01:03, 3.04s/it]
33%|████████████████████████████████▊ | 2385/7135 [2:10:29<4:06:21, 3.11s/it]
33%|████████████████████████████████▊ | 2386/7135 [2:10:33<4:16:18, 3.24s/it]
33%|████████████████████████████████▊ | 2387/7135 [2:10:37<4:24:36, 3.34s/it]
33%|████████████████████████████████▊ | 2388/7135 [2:10:40<4:13:49, 3.21s/it]
33%|████████████████████████████████▊ | 2389/7135 [2:10:43<4:14:47, 3.22s/it]
33%|████████████████████████████████▊ | 2390/7135 [2:10:46<4:12:41, 3.20s/it]
{'loss': 0.6443, 'grad_norm': 5.5, 'learning_rate': 3.8037467760039027e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.08, 'epoch': 3.35}
33%|████████████████████████████████▊ | 2390/7135 [2:10:46<4:12:41, 3.20s/it]
34%|████████████████████████████████▊ | 2391/7135 [2:10:49<4:05:10, 3.10s/it]
34%|████████████████████████████████▊ | 2392/7135 [2:10:52<4:07:22, 3.13s/it]
34%|████████████████████████████████▊ | 2393/7135 [2:10:55<3:59:37, 3.03s/it]
34%|████████████████████████████████▉ | 2394/7135 [2:10:58<3:56:50, 3.00s/it]
34%|████████████████████████████████▉ | 2395/7135 [2:11:01<4:03:15, 3.08s/it]
34%|████████████████████████████████▉ | 2396/7135 [2:11:04<3:59:18, 3.03s/it]
34%|████████████████████████████████▉ | 2397/7135 [2:11:07<3:59:52, 3.04s/it]
34%|████████████████████████████████▉ | 2398/7135 [2:11:10<4:09:58, 3.17s/it]
34%|████████████████████████████████▉ | 2399/7135 [2:11:13<4:05:30, 3.11s/it]
34%|████████████████████████████████▉ | 2400/7135 [2:11:17<4:12:12, 3.20s/it]
{'loss': 0.7452, 'grad_norm': 5.0625, 'learning_rate': 3.794207971286788e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 373.81, 'epoch': 3.36}
34%|████████████████████████████████▉ | 2400/7135 [2:11:17<4:12:12, 3.20s/it]
34%|████████████████████████████████▉ | 2401/7135 [2:11:20<4:08:26, 3.15s/it]
34%|████████████████████████████████▉ | 2402/7135 [2:11:23<4:07:24, 3.14s/it]
34%|█████████████████████████████████ | 2403/7135 [2:11:26<3:55:19, 2.98s/it]
34%|█████████████████████████████████ | 2404/7135 [2:11:28<3:54:12, 2.97s/it]
34%|█████████████████████████████████ | 2405/7135 [2:11:32<4:03:56, 3.09s/it]
34%|█████████████████████████████████ | 2406/7135 [2:11:35<4:09:50, 3.17s/it]
34%|█████████████████████████████████ | 2407/7135 [2:11:38<4:09:56, 3.17s/it]
34%|█████████████████████████████████ | 2408/7135 [2:11:42<4:16:04, 3.25s/it]
34%|█████████████████████████████████ | 2409/7135 [2:11:45<4:16:34, 3.26s/it]
34%|█████████████████████████████████ | 2410/7135 [2:11:48<4:09:52, 3.17s/it]
{'loss': 0.7258, 'grad_norm': 4.40625, 'learning_rate': 3.7846433573490248e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 358.79, 'epoch': 3.38}
34%|█████████████████████████████████ | 2410/7135 [2:11:48<4:09:52, 3.17s/it]
34%|█████████████████████████████████ | 2411/7135 [2:11:51<4:06:14, 3.13s/it]
34%|█████████████████████████████████▏ | 2412/7135 [2:11:54<4:01:02, 3.06s/it]
34%|█████████████████████████████████▏ | 2413/7135 [2:11:57<4:05:40, 3.12s/it]
34%|█████████████████████████████████▏ | 2414/7135 [2:12:00<4:06:50, 3.14s/it]
34%|█████████████████████████████████▏ | 2415/7135 [2:12:03<3:58:10, 3.03s/it]
34%|█████████████████████████████████▏ | 2416/7135 [2:12:06<3:55:03, 2.99s/it]
34%|█████████████████████████████████▏ | 2417/7135 [2:12:10<4:08:07, 3.16s/it]
34%|█████████████████████████████████▏ | 2418/7135 [2:12:12<3:57:28, 3.02s/it]
34%|█████████████████████████████████▏ | 2419/7135 [2:12:16<4:08:47, 3.17s/it]
34%|█████████████████████████████████▏ | 2420/7135 [2:12:19<3:59:25, 3.05s/it]
{'loss': 0.7331, 'grad_norm': 5.28125, 'learning_rate': 3.7750531249290696e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.98, 'epoch': 3.39}
34%|█████████████████████████████████▏ | 2420/7135 [2:12:19<3:59:25, 3.05s/it]
34%|█████████████████████████████████▎ | 2421/7135 [2:12:22<3:58:30, 3.04s/it]
34%|█████████████████████████████████▎ | 2422/7135 [2:12:24<3:45:26, 2.87s/it]
34%|█████████████████████████████████▎ | 2423/7135 [2:12:27<3:48:01, 2.90s/it]
34%|█████████████████████████████████▎ | 2424/7135 [2:12:30<3:53:52, 2.98s/it]
34%|█████████████████████████████████▎ | 2425/7135 [2:12:33<3:56:10, 3.01s/it]
34%|█████████████████████████████████▎ | 2426/7135 [2:12:36<3:59:17, 3.05s/it]
34%|█████████████████████████████████▎ | 2427/7135 [2:12:40<4:09:08, 3.18s/it]
34%|█████████████████████████████████▎ | 2428/7135 [2:12:43<3:57:18, 3.02s/it]
34%|█████████████████████████████████▎ | 2429/7135 [2:12:47<4:27:26, 3.41s/it]
34%|█████████████████████████████████▍ | 2430/7135 [2:12:51<4:40:45, 3.58s/it]
{'loss': 0.746, 'grad_norm': 5.75, 'learning_rate': 3.7654374652762664e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 279.17, 'epoch': 3.4}
34%|█████████████████████████████████▍ | 2430/7135 [2:12:51<4:40:45, 3.58s/it]
34%|█████████████████████████████████▍ | 2431/7135 [2:12:54<4:30:54, 3.46s/it]
34%|█████████████████████████████████▍ | 2432/7135 [2:12:57<4:14:06, 3.24s/it]
34%|█████████████████████████████████▍ | 2433/7135 [2:13:00<4:17:33, 3.29s/it]
34%|█████████████████████████████████▍ | 2434/7135 [2:13:03<4:10:18, 3.19s/it]
34%|█████████████████████████████████▍ | 2435/7135 [2:13:06<4:01:41, 3.09s/it]
34%|█████████████████████████████████▍ | 2436/7135 [2:13:09<3:56:02, 3.01s/it]
34%|█████████████████████████████████▍ | 2437/7135 [2:13:12<3:55:05, 3.00s/it]
34%|█████████████████████████████████▍ | 2438/7135 [2:13:15<3:54:43, 3.00s/it]
34%|█████████████████████████████████▍ | 2439/7135 [2:13:18<3:53:06, 2.98s/it]
34%|█████████████████████████████████▌ | 2440/7135 [2:13:21<3:58:56, 3.05s/it]
{'loss': 0.7724, 'grad_norm': 3.78125, 'learning_rate': 3.75579657014703e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.09, 'epoch': 3.42}
34%|█████████████████████████████████▌ | 2440/7135 [2:13:21<3:58:56, 3.05s/it]
34%|█████████████████████████████████▌ | 2441/7135 [2:13:24<4:00:38, 3.08s/it]
34%|█████████████████████████████████▌ | 2442/7135 [2:13:27<4:03:40, 3.12s/it]
34%|█████████████████████████████████▌ | 2443/7135 [2:13:31<4:15:09, 3.26s/it]
34%|█████████████████████████████████▌ | 2444/7135 [2:13:34<4:13:31, 3.24s/it]
34%|█████████████████████████████████▌ | 2445/7135 [2:13:37<4:14:56, 3.26s/it]
34%|█████████████████████████████████▌ | 2446/7135 [2:13:40<4:07:05, 3.16s/it]
34%|█████████████████████████████████▌ | 2447/7135 [2:13:43<4:04:51, 3.13s/it]
34%|█████████████████████████████████▌ | 2448/7135 [2:13:47<4:05:16, 3.14s/it]
34%|█████████████████████████████████▋ | 2449/7135 [2:13:50<4:04:28, 3.13s/it]
34%|█████████████████████████████████▋ | 2450/7135 [2:13:53<3:59:21, 3.07s/it]
{'loss': 0.6751, 'grad_norm': 5.25, 'learning_rate': 3.746130631801025e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.23, 'epoch': 3.43}
34%|█████████████████████████████████▋ | 2450/7135 [2:13:53<3:59:21, 3.07s/it]
34%|█████████████████████████████████▋ | 2451/7135 [2:13:56<3:56:14, 3.03s/it]
34%|█████████████████████████████████▋ | 2452/7135 [2:13:59<4:04:28, 3.13s/it]
34%|█████████████████████████████████▋ | 2453/7135 [2:14:02<3:58:55, 3.06s/it]
34%|█████████████████████████████████▋ | 2454/7135 [2:14:05<3:55:01, 3.01s/it]
34%|█████████████████████████████████▋ | 2455/7135 [2:14:08<4:06:28, 3.16s/it]
34%|█████████████████████████████████▋ | 2456/7135 [2:14:11<4:00:56, 3.09s/it]
34%|█████████████████████████████████▋ | 2457/7135 [2:14:14<3:59:57, 3.08s/it]
34%|█████████████████████████████████▊ | 2458/7135 [2:14:17<3:59:22, 3.07s/it]
34%|█████████████████████████████████▊ | 2459/7135 [2:14:20<3:54:02, 3.00s/it]
34%|█████████████████████████████████▊ | 2460/7135 [2:14:23<4:03:03, 3.12s/it]
{'loss': 0.6748, 'grad_norm': 5.25, 'learning_rate': 3.736439842997329e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 356.25, 'epoch': 3.45}
34%|█████████████████████████████████▊ | 2460/7135 [2:14:24<4:03:03, 3.12s/it]
34%|█████████████████████████████████▊ | 2461/7135 [2:14:27<4:01:28, 3.10s/it]
35%|█████████████████████████████████▊ | 2462/7135 [2:14:30<4:01:26, 3.10s/it]
35%|█████████████████████████████████▊ | 2463/7135 [2:14:34<4:20:11, 3.34s/it]
35%|█████████████████████████████████▊ | 2464/7135 [2:14:37<4:11:03, 3.22s/it]
35%|█████████████████████████████████▊ | 2465/7135 [2:14:40<4:12:47, 3.25s/it]
35%|█████████████████████████████████▊ | 2466/7135 [2:14:43<4:05:15, 3.15s/it]
35%|█████████████████████████████████▉ | 2467/7135 [2:14:46<3:57:55, 3.06s/it]
35%|█████████████████████████████████▉ | 2468/7135 [2:14:49<4:07:05, 3.18s/it]
35%|█████████████████████████████████▉ | 2469/7135 [2:14:53<4:15:58, 3.29s/it]
35%|█████████████████████████████████▉ | 2470/7135 [2:14:56<4:20:53, 3.36s/it]
{'loss': 0.7504, 'grad_norm': 4.8125, 'learning_rate': 3.726724396990591e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.82, 'epoch': 3.46}
35%|█████████████████████████████████▉ | 2470/7135 [2:14:56<4:20:53, 3.36s/it]
35%|█████████████████████████████████▉ | 2471/7135 [2:14:59<4:11:26, 3.23s/it]
35%|█████████████████████████████████▉ | 2472/7135 [2:15:03<4:19:30, 3.34s/it]
35%|█████████████████████████████████▉ | 2473/7135 [2:15:06<4:18:41, 3.33s/it]
35%|█████████████████████████████████▉ | 2474/7135 [2:15:09<4:10:02, 3.22s/it]
35%|█████████████████████████████████▉ | 2475/7135 [2:15:12<4:06:58, 3.18s/it]
35%|██████████████████████████████████ | 2476/7135 [2:15:15<4:05:59, 3.17s/it]
35%|██████████████████████████████████ | 2477/7135 [2:15:18<3:58:31, 3.07s/it]
35%|██████████████████████████████████ | 2478/7135 [2:15:21<3:52:29, 3.00s/it]
35%|██████████████████████████████████ | 2479/7135 [2:15:23<3:44:09, 2.89s/it]
35%|██████████████████████████████████ | 2480/7135 [2:15:27<3:55:12, 3.03s/it]
{'loss': 0.8318, 'grad_norm': 5.28125, 'learning_rate': 3.716984487527174e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 349.18, 'epoch': 3.47}
35%|██████████████████████████████████ | 2480/7135 [2:15:27<3:55:12, 3.03s/it]
35%|██████████████████████████████████ | 2481/7135 [2:15:31<4:26:30, 3.44s/it]
35%|██████████████████████████████████ | 2482/7135 [2:15:35<4:32:09, 3.51s/it]
35%|██████████████████████████████████ | 2483/7135 [2:15:38<4:15:56, 3.30s/it]
35%|██████████████████████████████████ | 2484/7135 [2:15:41<4:17:48, 3.33s/it]
35%|██████████████████████████████████▏ | 2485/7135 [2:15:45<4:21:12, 3.37s/it]
35%|██████████████████████████████████▏ | 2486/7135 [2:15:47<4:11:21, 3.24s/it]
35%|██████████████████████████████████▏ | 2487/7135 [2:15:51<4:11:46, 3.25s/it]
35%|██████████████████████████████████▏ | 2488/7135 [2:15:54<4:16:08, 3.31s/it]
35%|██████████████████████████████████▏ | 2489/7135 [2:15:57<4:14:54, 3.29s/it]
35%|██████████████████████████████████▏ | 2490/7135 [2:16:00<4:05:07, 3.17s/it]
{'loss': 0.7672, 'grad_norm': 4.9375, 'learning_rate': 3.7072203088412988e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.93, 'epoch': 3.49}
35%|██████████████████████████████████▏ | 2490/7135 [2:16:00<4:05:07, 3.17s/it]
35%|██████████████████████████████████▏ | 2491/7135 [2:16:04<4:09:28, 3.22s/it]
35%|██████████████████████████████████▏ | 2492/7135 [2:16:07<4:16:29, 3.31s/it]
35%|██████████████████████████████████▏ | 2493/7135 [2:16:10<4:01:18, 3.12s/it]
35%|██████████████████████████████████▎ | 2494/7135 [2:16:13<4:05:28, 3.17s/it]
35%|██████████████████████████████████▎ | 2495/7135 [2:16:16<3:59:37, 3.10s/it]
35%|██████████████████████████████████▎ | 2496/7135 [2:16:19<3:59:19, 3.10s/it]
35%|██████████████████████████████████▎ | 2497/7135 [2:16:22<4:04:37, 3.16s/it]
35%|██████████████████████████████████▎ | 2498/7135 [2:16:26<4:08:22, 3.21s/it]
35%|██████████████████████████████████▎ | 2499/7135 [2:16:29<3:57:46, 3.08s/it]
35%|██████████████████████████████████▎ | 2500/7135 [2:16:32<3:59:02, 3.09s/it]
{'loss': 0.7897, 'grad_norm': 4.75, 'learning_rate': 3.6974320556511594e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 398.02, 'epoch': 3.5}
35%|██████████████████████████████████▎ | 2500/7135 [2:16:32<3:59:02, 3.09s/it]
35%|██████████████████████████████████▎ | 2501/7135 [2:16:35<4:02:38, 3.14s/it]
35%|██████████████████████████████████▎ | 2502/7135 [2:16:38<4:07:28, 3.20s/it]
35%|██████████████████████████████████▍ | 2503/7135 [2:16:42<4:16:14, 3.32s/it]
35%|██████████████████████████████████▍ | 2504/7135 [2:16:46<4:29:03, 3.49s/it]
35%|██████████████████████████████████▍ | 2505/7135 [2:16:49<4:16:13, 3.32s/it]
35%|██████████████████████████████████▍ | 2506/7135 [2:16:52<4:06:36, 3.20s/it]
35%|██████████████████████████████████▍ | 2507/7135 [2:16:55<4:06:14, 3.19s/it]
35%|██████████████████████████████████▍ | 2508/7135 [2:16:58<4:00:07, 3.11s/it]
35%|██████████████████████████████████▍ | 2509/7135 [2:17:02<4:21:49, 3.40s/it]
35%|██████████████████████████████████▍ | 2510/7135 [2:17:05<4:15:49, 3.32s/it]
{'loss': 0.689, 'grad_norm': 3.625, 'learning_rate': 3.6876199231550486e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 352.86, 'epoch': 3.52}
35%|██████████████████████████████████▍ | 2510/7135 [2:17:05<4:15:49, 3.32s/it]
35%|██████████████████████████████████▍ | 2511/7135 [2:17:08<4:14:49, 3.31s/it]
35%|██████████████████████████████████▌ | 2512/7135 [2:17:11<4:13:34, 3.29s/it]
35%|██████████████████████████████████▌ | 2513/7135 [2:17:15<4:18:03, 3.35s/it]
35%|██████████████████████████████████▌ | 2514/7135 [2:17:18<4:16:51, 3.34s/it]
35%|██████████████████████████████████▌ | 2515/7135 [2:17:21<4:03:36, 3.16s/it]
35%|██████████████████████████████████▌ | 2516/7135 [2:17:25<4:13:42, 3.30s/it]
35%|██████████████████████████████████▌ | 2517/7135 [2:17:28<4:06:17, 3.20s/it]
35%|██████████████████████████████████▌ | 2518/7135 [2:17:31<4:02:03, 3.15s/it]
35%|██████████████████████████████████▌ | 2519/7135 [2:17:34<4:06:32, 3.20s/it]
35%|██████████████████████████████████▌ | 2520/7135 [2:17:37<3:52:17, 3.02s/it]
{'loss': 0.7005, 'grad_norm': 5.78125, 'learning_rate': 3.677784107027464e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.52, 'epoch': 3.53}
35%|██████████████████████████████████▌ | 2520/7135 [2:17:37<3:52:17, 3.02s/it]
35%|██████████████████████████████████▋ | 2521/7135 [2:17:40<3:59:21, 3.11s/it]
35%|██████████████████████████████████▋ | 2522/7135 [2:17:44<4:19:33, 3.38s/it]
35%|██████████████████████████████████▋ | 2523/7135 [2:17:47<4:08:35, 3.23s/it]
35%|██████████████████████████████████▋ | 2524/7135 [2:17:50<4:05:19, 3.19s/it]
35%|██████████████████████████████████▋ | 2525/7135 [2:17:53<4:05:10, 3.19s/it]
35%|██████████████████████████████████▋ | 2526/7135 [2:17:56<4:02:46, 3.16s/it]
35%|██████████████████████████████████▋ | 2527/7135 [2:17:59<3:55:21, 3.06s/it]
35%|██████████████████████████████████▋ | 2528/7135 [2:18:02<3:50:37, 3.00s/it]
35%|██████████████████████████████████▋ | 2529/7135 [2:18:05<3:49:03, 2.98s/it]
35%|██████████████████████████████████▋ | 2530/7135 [2:18:08<3:50:20, 3.00s/it]
{'loss': 0.6681, 'grad_norm': 4.75, 'learning_rate': 3.667924803415201e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.8, 'epoch': 3.54}
35%|██████████████████████████████████▋ | 2530/7135 [2:18:08<3:50:20, 3.00s/it]
35%|██████████████████████████████████▊ | 2531/7135 [2:18:11<4:01:45, 3.15s/it]
35%|██████████████████████████████████▊ | 2532/7135 [2:18:14<3:58:14, 3.11s/it]
36%|██████████████████████████████████▊ | 2533/7135 [2:18:17<3:54:20, 3.06s/it]
36%|██████████████████████████████████▊ | 2534/7135 [2:18:20<3:55:13, 3.07s/it]
36%|██████████████████████████████████▊ | 2535/7135 [2:18:24<4:02:26, 3.16s/it]
36%|██████████████████████████████████▊ | 2536/7135 [2:18:27<4:07:32, 3.23s/it]
36%|██████████████████████████████████▊ | 2537/7135 [2:18:31<4:22:09, 3.42s/it]
36%|██████████████████████████████████▊ | 2538/7135 [2:18:34<4:22:06, 3.42s/it]
36%|██████████████████████████████████▊ | 2539/7135 [2:18:38<4:16:36, 3.35s/it]
36%|██████████████████████████████████▉ | 2540/7135 [2:18:40<4:06:01, 3.21s/it]
{'loss': 1.1154, 'grad_norm': 5.8125, 'learning_rate': 3.658042208933448e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 553.21, 'epoch': 3.56}
36%|██████████████████████████████████▉ | 2540/7135 [2:18:41<4:06:01, 3.21s/it]
36%|██████████████████████████████████▉ | 2541/7135 [2:18:44<4:06:40, 3.22s/it]
36%|██████████████████████████████████▉ | 2542/7135 [2:18:47<4:00:47, 3.15s/it]
36%|██████████████████████████████████▉ | 2543/7135 [2:18:50<3:57:37, 3.10s/it]
36%|██████████████████████████████████▉ | 2544/7135 [2:18:53<3:55:39, 3.08s/it]
36%|██████████████████████████████████▉ | 2545/7135 [2:18:56<4:09:05, 3.26s/it]
36%|██████████████████████████████████▉ | 2546/7135 [2:19:01<4:32:28, 3.56s/it]
36%|██████████████████████████████████▉ | 2547/7135 [2:19:04<4:26:58, 3.49s/it]
36%|██████████████████████████████████▉ | 2548/7135 [2:19:07<4:17:56, 3.37s/it]
36%|███████████████████████████████████ | 2549/7135 [2:19:11<4:20:30, 3.41s/it]
36%|███████████████████████████████████ | 2550/7135 [2:19:13<4:08:19, 3.25s/it]
{'loss': 0.7898, 'grad_norm': 4.5, 'learning_rate': 3.6481365206618603e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 422.77, 'epoch': 3.57}
36%|███████████████████████████████████ | 2550/7135 [2:19:14<4:08:19, 3.25s/it]
36%|███████████████████████████████████ | 2551/7135 [2:19:16<3:57:20, 3.11s/it]
36%|███████████████████████████████████ | 2552/7135 [2:19:19<3:50:43, 3.02s/it]
36%|███████████████████████████████████ | 2553/7135 [2:19:22<3:58:52, 3.13s/it]
36%|███████████████████████████████████ | 2554/7135 [2:19:26<3:59:31, 3.14s/it]
36%|███████████████████████████████████ | 2555/7135 [2:19:28<3:49:09, 3.00s/it]
36%|███████████████████████████████████ | 2556/7135 [2:19:32<3:55:35, 3.09s/it]
36%|███████████████████████████████████ | 2557/7135 [2:19:35<3:53:44, 3.06s/it]
36%|███████████████████████████████████▏ | 2558/7135 [2:19:38<3:54:22, 3.07s/it]
36%|███████████████████████████████████▏ | 2559/7135 [2:19:41<4:00:59, 3.16s/it]
36%|███████████████████████████████████▏ | 2560/7135 [2:19:44<3:56:24, 3.10s/it]
{'loss': 0.6766, 'grad_norm': 3.359375, 'learning_rate': 3.6382079361406326e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.54, 'epoch': 3.59}
36%|███████████████████████████████████▏ | 2560/7135 [2:19:44<3:56:24, 3.10s/it]
36%|███████████████████████████████████▏ | 2561/7135 [2:19:47<4:00:26, 3.15s/it]
36%|███████████████████████████████████▏ | 2562/7135 [2:19:51<4:02:57, 3.19s/it]
36%|███████████████████████████████████▏ | 2563/7135 [2:19:54<4:11:02, 3.29s/it]
36%|███████████████████████████████████▏ | 2564/7135 [2:19:57<4:11:28, 3.30s/it]
36%|███████████████████████████████████▏ | 2565/7135 [2:20:01<4:08:26, 3.26s/it]
36%|███████████████████████████████████▏ | 2566/7135 [2:20:04<4:03:58, 3.20s/it]
36%|███████████████████████████████████▎ | 2567/7135 [2:20:07<4:02:09, 3.18s/it]
36%|███████████████████████████████████▎ | 2568/7135 [2:20:10<3:59:30, 3.15s/it]
36%|███████████████████████████████████▎ | 2569/7135 [2:20:14<4:14:22, 3.34s/it]
36%|███████████████████████████████████▎ | 2570/7135 [2:20:17<4:18:08, 3.39s/it]
{'loss': 0.8287, 'grad_norm': 3.875, 'learning_rate': 3.628256653366558e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.98, 'epoch': 3.6}
36%|███████████████████████████████████▎ | 2570/7135 [2:20:17<4:18:08, 3.39s/it]
36%|███████████████████████████████████▎ | 2571/7135 [2:20:20<4:06:53, 3.25s/it]
36%|███████████████████████████████████▎ | 2572/7135 [2:20:23<4:05:41, 3.23s/it]
36%|███████████████████████████████████▎ | 2573/7135 [2:20:27<4:06:30, 3.24s/it]
36%|███████████████████████████████████▎ | 2574/7135 [2:20:30<4:06:33, 3.24s/it]
36%|███████████████████████████████████▎ | 2575/7135 [2:20:33<4:06:18, 3.24s/it]
36%|███████████████████████████████████▍ | 2576/7135 [2:20:37<4:29:09, 3.54s/it]
36%|███████████████████████████████████▍ | 2577/7135 [2:20:41<4:24:34, 3.48s/it]
36%|███████████████████████████████████▍ | 2578/7135 [2:20:44<4:20:05, 3.42s/it]
36%|███████████████████████████████████▍ | 2579/7135 [2:20:47<4:14:37, 3.35s/it]
36%|███████████████████████████████████▍ | 2580/7135 [2:20:50<4:00:00, 3.16s/it]
{'loss': 0.6857, 'grad_norm': 6.34375, 'learning_rate': 3.6182828707890816e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 525.87, 'epoch': 3.61}
36%|███████████████████████████████████▍ | 2580/7135 [2:20:50<4:00:00, 3.16s/it]
36%|███████████████████████████████████▍ | 2581/7135 [2:20:53<4:02:39, 3.20s/it]
36%|███████████████████████████████████▍ | 2582/7135 [2:20:56<4:04:31, 3.22s/it]
36%|███████████████████████████████████▍ | 2583/7135 [2:21:00<4:06:11, 3.25s/it]
36%|███████████████████████████████████▍ | 2584/7135 [2:21:03<3:59:29, 3.16s/it]
36%|███████████████████████████████████▌ | 2585/7135 [2:21:07<4:16:54, 3.39s/it]
36%|███████████████████████████████████▌ | 2586/7135 [2:21:10<4:22:11, 3.46s/it]
36%|███████████████████████████████████▌ | 2587/7135 [2:21:13<4:07:33, 3.27s/it]
36%|███████████████████████████████████▌ | 2588/7135 [2:21:16<4:05:52, 3.24s/it]
36%|███████████████████████████████████▌ | 2589/7135 [2:21:19<4:08:11, 3.28s/it]
36%|███████████████████████████████████▌ | 2590/7135 [2:21:22<4:00:44, 3.18s/it]
{'loss': 0.6252, 'grad_norm': 6.5, 'learning_rate': 3.6082867873063416e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 461.75, 'epoch': 3.63}
36%|███████████████████████████████████▌ | 2590/7135 [2:21:22<4:00:44, 3.18s/it]
36%|███████████████████████████████████▌ | 2591/7135 [2:21:25<3:54:05, 3.09s/it]
36%|███████████████████████████████████▌ | 2592/7135 [2:21:29<4:05:48, 3.25s/it]
36%|███████████████████████████████████▌ | 2593/7135 [2:21:32<4:03:57, 3.22s/it]
36%|███████████████████████████████████▋ | 2594/7135 [2:21:36<4:13:29, 3.35s/it]
36%|███████████████████████████████████▋ | 2595/7135 [2:21:39<4:11:20, 3.32s/it]
36%|███████████████████████████████████▋ | 2596/7135 [2:21:42<4:14:57, 3.37s/it]
36%|███████████████████████████████████▋ | 2597/7135 [2:21:45<4:03:44, 3.22s/it]
36%|███████████████████████████████████▋ | 2598/7135 [2:21:48<4:01:08, 3.19s/it]
36%|███████████████████████████████████▋ | 2599/7135 [2:21:52<4:05:15, 3.24s/it]
36%|███████████████████████████████████▋ | 2600/7135 [2:21:55<3:55:57, 3.12s/it]
{'loss': 0.8556, 'grad_norm': 6.09375, 'learning_rate': 3.5982686022612006e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.18, 'epoch': 3.64}
36%|███████████████████████████████████▋ | 2600/7135 [2:21:55<3:55:57, 3.12s/it]
36%|███████████████████████████████████▋ | 2601/7135 [2:21:58<4:06:40, 3.26s/it]
36%|███████████████████████████████████▋ | 2602/7135 [2:22:02<4:18:57, 3.43s/it]
36%|███████████████████████████████████▊ | 2603/7135 [2:22:05<4:02:40, 3.21s/it]
36%|███████████████████████████████████▊ | 2604/7135 [2:22:08<3:55:54, 3.12s/it]
37%|███████████████████████████████████▊ | 2605/7135 [2:22:11<3:50:20, 3.05s/it]
37%|███████████████████████████████████▊ | 2606/7135 [2:22:14<3:48:28, 3.03s/it]
37%|███████████████████████████████████▊ | 2607/7135 [2:22:17<3:48:52, 3.03s/it]
37%|███████████████████████████████████▊ | 2608/7135 [2:22:20<3:48:39, 3.03s/it]
37%|███████████████████████████████████▊ | 2609/7135 [2:22:23<3:51:32, 3.07s/it]
37%|███████████████████████████████████▊ | 2610/7135 [2:22:26<3:44:51, 2.98s/it]
{'loss': 1.0843, 'grad_norm': 5.09375, 'learning_rate': 3.5882285154372765e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 501.65, 'epoch': 3.66}
37%|███████████████████████████████████▊ | 2610/7135 [2:22:26<3:44:51, 2.98s/it]
37%|███████████████████████████████████▊ | 2611/7135 [2:22:29<3:51:32, 3.07s/it]
37%|███████████████████████████████████▉ | 2612/7135 [2:22:32<3:55:58, 3.13s/it]
37%|███████████████████████████████████▉ | 2613/7135 [2:22:36<4:04:15, 3.24s/it]
37%|███████████████████████████████████▉ | 2614/7135 [2:22:39<4:00:32, 3.19s/it]
37%|███████████████████████████████████▉ | 2615/7135 [2:22:42<3:57:09, 3.15s/it]
37%|███████████████████████████████████▉ | 2616/7135 [2:22:44<3:45:28, 2.99s/it]
37%|███████████████████████████████████▉ | 2617/7135 [2:22:48<3:51:51, 3.08s/it]
37%|███████████████████████████████████▉ | 2618/7135 [2:22:52<4:10:33, 3.33s/it]
37%|███████████████████████████████████▉ | 2619/7135 [2:22:54<4:00:50, 3.20s/it]
37%|███████████████████████████████████▉ | 2620/7135 [2:22:58<4:15:36, 3.40s/it]
{'loss': 0.7563, 'grad_norm': 4.5, 'learning_rate': 3.578166727054952e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.24, 'epoch': 3.67}
37%|███████████████████████████████████▉ | 2620/7135 [2:22:58<4:15:36, 3.40s/it]
37%|███████████████████████████████████▉ | 2621/7135 [2:23:02<4:20:01, 3.46s/it]
37%|████████████████████████████████████ | 2622/7135 [2:23:05<4:14:48, 3.39s/it]
37%|████████████████████████████████████ | 2623/7135 [2:23:09<4:14:16, 3.38s/it]
37%|████████████████████████████████████ | 2624/7135 [2:23:11<4:04:01, 3.25s/it]
37%|████████████████████████████████████ | 2625/7135 [2:23:14<3:50:34, 3.07s/it]
37%|████████████████████████████████████ | 2626/7135 [2:23:18<4:02:04, 3.22s/it]
37%|████████████████████████████████████ | 2627/7135 [2:23:20<3:52:43, 3.10s/it]
37%|████████████████████████████████████ | 2628/7135 [2:23:24<3:52:00, 3.09s/it]
37%|████████████████████████████████████ | 2629/7135 [2:23:27<3:52:55, 3.10s/it]
37%|████████████████████████████████████ | 2630/7135 [2:23:30<3:51:26, 3.08s/it]
{'loss': 0.7402, 'grad_norm': 5.8125, 'learning_rate': 3.5680834377673845e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 376.75, 'epoch': 3.68}
37%|████████████████████████████████████ | 2630/7135 [2:23:30<3:51:26, 3.08s/it]
37%|████████████████████████████████████▏ | 2631/7135 [2:23:33<3:55:40, 3.14s/it]
37%|████████████████████████████████████▏ | 2632/7135 [2:23:37<4:05:47, 3.27s/it]
37%|████████████████████████████████████▏ | 2633/7135 [2:23:40<4:03:53, 3.25s/it]
37%|████████████████████████████████████▏ | 2634/7135 [2:23:43<3:54:15, 3.12s/it]
37%|████████████████████████████████████▏ | 2635/7135 [2:23:45<3:47:08, 3.03s/it]
37%|████████████████████████████████████▏ | 2636/7135 [2:23:49<3:50:19, 3.07s/it]
37%|████████████████████████████████████▏ | 2637/7135 [2:23:52<3:53:18, 3.11s/it]
37%|████████████████████████████████████▏ | 2638/7135 [2:23:55<3:49:38, 3.06s/it]
37%|████████████████████████████████████▏ | 2639/7135 [2:23:58<3:50:11, 3.07s/it]
37%|████████████████████████████████████▎ | 2640/7135 [2:24:01<3:54:12, 3.13s/it]
{'loss': 0.7214, 'grad_norm': 4.375, 'learning_rate': 3.5579788486565047e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 353.18, 'epoch': 3.7}
37%|████████████████████████████████████▎ | 2640/7135 [2:24:01<3:54:12, 3.13s/it]
37%|████████████████████████████████████▎ | 2641/7135 [2:24:04<3:58:57, 3.19s/it]
37%|████████████████████████████████████▎ | 2642/7135 [2:24:08<4:14:03, 3.39s/it]
37%|████████████████████████████████████▎ | 2643/7135 [2:24:11<4:04:44, 3.27s/it]
37%|████████████████████████████████████▎ | 2644/7135 [2:24:14<3:56:53, 3.16s/it]
37%|████████████████████████████████████▎ | 2645/7135 [2:24:17<3:55:42, 3.15s/it]
37%|████████████████████████████████████▎ | 2646/7135 [2:24:21<4:03:21, 3.25s/it]
37%|████████████████████████████████████▎ | 2647/7135 [2:24:24<4:00:50, 3.22s/it]
37%|████████████████████████████████████▎ | 2648/7135 [2:24:27<3:47:35, 3.04s/it]
37%|████████████████████████████████████▍ | 2649/7135 [2:24:30<3:51:01, 3.09s/it]
37%|████████████████████████████████████▍ | 2650/7135 [2:24:33<3:54:54, 3.14s/it]
{'loss': 0.9151, 'grad_norm': 4.8125, 'learning_rate': 3.547853161229009e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.73, 'epoch': 3.71}
37%|████████████████████████████████████▍ | 2650/7135 [2:24:33<3:54:54, 3.14s/it]
37%|████████████████████████████████████▍ | 2651/7135 [2:24:37<4:05:41, 3.29s/it]
37%|████████████████████████████████████▍ | 2652/7135 [2:24:40<4:14:20, 3.40s/it]
37%|████████████████████████████████████▍ | 2653/7135 [2:24:43<4:07:38, 3.32s/it]
37%|████████████████████████████████████▍ | 2654/7135 [2:24:46<3:56:30, 3.17s/it]
37%|████████████████████████████████████▍ | 2655/7135 [2:24:50<4:02:49, 3.25s/it]
37%|████████████████████████████████████▍ | 2656/7135 [2:24:53<4:07:07, 3.31s/it]
37%|████████████████████████████████████▍ | 2657/7135 [2:24:56<4:00:06, 3.22s/it]
37%|████████████████████████████████████▌ | 2658/7135 [2:24:59<4:00:12, 3.22s/it]
37%|████████████████████████████████████▌ | 2659/7135 [2:25:02<3:50:40, 3.09s/it]
37%|████████████████████████████████████▌ | 2660/7135 [2:25:05<3:45:35, 3.02s/it]
{'loss': 0.7484, 'grad_norm': 4.5625, 'learning_rate': 3.5377065774123344e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 464.97, 'epoch': 3.73}
37%|████████████████████████████████████▌ | 2660/7135 [2:25:05<3:45:35, 3.02s/it]
37%|████████████████████████████████████▌ | 2661/7135 [2:25:08<3:37:05, 2.91s/it]
37%|████████████████████████████████████▌ | 2662/7135 [2:25:11<3:40:15, 2.95s/it]
37%|████████████████████████████████████▌ | 2663/7135 [2:25:14<3:37:18, 2.92s/it]
37%|████████████████████████████████████▌ | 2664/7135 [2:25:17<3:46:30, 3.04s/it]
37%|████████████████████████████████████▌ | 2665/7135 [2:25:20<3:45:10, 3.02s/it]
37%|████████████████████████████████████▌ | 2666/7135 [2:25:23<3:44:11, 3.01s/it]
37%|████████████████████████████████████▋ | 2667/7135 [2:25:26<3:46:27, 3.04s/it]
37%|████████████████████████████████████▋ | 2668/7135 [2:25:29<3:39:53, 2.95s/it]
37%|████████████████████████████████████▋ | 2669/7135 [2:25:32<3:40:30, 2.96s/it]
37%|████████████████████████████████████▋ | 2670/7135 [2:25:35<3:37:50, 2.93s/it]
{'loss': 0.7568, 'grad_norm': 7.90625, 'learning_rate': 3.5275392995506375e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.64, 'epoch': 3.74}
37%|████████████████████████████████████▋ | 2670/7135 [2:25:35<3:37:50, 2.93s/it]
37%|████████████████████████████████████▋ | 2671/7135 [2:25:38<3:41:25, 2.98s/it]
37%|████████████████████████████████████▋ | 2672/7135 [2:25:40<3:32:53, 2.86s/it]
37%|████████████████████████████████████▋ | 2673/7135 [2:25:43<3:35:21, 2.90s/it]
37%|████████████████████████████████████▋ | 2674/7135 [2:25:46<3:26:29, 2.78s/it]
37%|████████████████████████████████████▋ | 2675/7135 [2:25:49<3:34:21, 2.88s/it]
38%|████████████████████████████████████▊ | 2676/7135 [2:25:52<3:43:46, 3.01s/it]
38%|████████████████████████████████████▊ | 2677/7135 [2:25:55<3:42:06, 2.99s/it]
38%|████████████████████████████████████▊ | 2678/7135 [2:25:58<3:49:19, 3.09s/it]
38%|████████████████████████████████████▊ | 2679/7135 [2:26:02<3:49:45, 3.09s/it]
38%|████████████████████████████████████▊ | 2680/7135 [2:26:04<3:45:52, 3.04s/it]
{'loss': 0.7354, 'grad_norm': 6.125, 'learning_rate': 3.517351530400759e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.91, 'epoch': 3.75}
38%|████████████████████████████████████▊ | 2680/7135 [2:26:05<3:45:52, 3.04s/it]
38%|████████████████████████████████████▊ | 2681/7135 [2:26:08<3:57:48, 3.20s/it]
38%|████████████████████████████████████▊ | 2682/7135 [2:26:11<3:56:17, 3.18s/it]
38%|████████████████████████████████████▊ | 2683/7135 [2:26:15<3:59:50, 3.23s/it]
38%|████████████████████████████████████▊ | 2684/7135 [2:26:18<4:00:41, 3.24s/it]
38%|████████████████████████████████████▉ | 2685/7135 [2:26:21<4:05:39, 3.31s/it]
38%|████████████████████████████████████▉ | 2686/7135 [2:26:24<3:52:02, 3.13s/it]
38%|████████████████████████████████████▉ | 2687/7135 [2:26:28<4:00:53, 3.25s/it]
38%|████████████████████████████████████▉ | 2688/7135 [2:26:31<3:58:13, 3.21s/it]
38%|████████████████████████████████████▉ | 2689/7135 [2:26:33<3:45:52, 3.05s/it]
38%|████████████████████████████████████▉ | 2690/7135 [2:26:36<3:44:28, 3.03s/it]
{'loss': 0.7423, 'grad_norm': 3.8125, 'learning_rate': 3.507143473128177e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 442.98, 'epoch': 3.77}
38%|████████████████████████████████████▉ | 2690/7135 [2:26:36<3:44:28, 3.03s/it]
38%|████████████████████████████████████▉ | 2691/7135 [2:26:39<3:46:06, 3.05s/it]
38%|████████████████████████████████████▉ | 2692/7135 [2:26:43<3:51:48, 3.13s/it]
38%|████████████████████████████████████▉ | 2693/7135 [2:26:46<3:53:04, 3.15s/it]
38%|█████████████████████████████████████ | 2694/7135 [2:26:49<3:52:36, 3.14s/it]
38%|█████████████████████████████████████ | 2695/7135 [2:26:52<3:49:38, 3.10s/it]
38%|█████████████████████████████████████ | 2696/7135 [2:26:55<3:50:53, 3.12s/it]
38%|█████████████████████████████████████ | 2697/7135 [2:26:58<3:45:26, 3.05s/it]
38%|█████████████████████████████████████ | 2698/7135 [2:27:01<3:47:49, 3.08s/it]
38%|█████████████████████████████████████ | 2699/7135 [2:27:04<3:46:34, 3.06s/it]
38%|█████████████████████████████████████ | 2700/7135 [2:27:07<3:37:13, 2.94s/it]
{'loss': 0.7364, 'grad_norm': 5.03125, 'learning_rate': 3.4969153313029567e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 415.3, 'epoch': 3.78}
38%|█████████████████████████████████████ | 2700/7135 [2:27:07<3:37:13, 2.94s/it]
38%|█████████████████████████████████████ | 2701/7135 [2:27:10<3:36:16, 2.93s/it]
38%|█████████████████████████████████████ | 2702/7135 [2:27:13<3:46:56, 3.07s/it]
38%|█████████████████████████████████████▏ | 2703/7135 [2:27:16<3:51:06, 3.13s/it]
38%|█████████████████████████████████████▏ | 2704/7135 [2:27:20<3:52:49, 3.15s/it]
38%|█████████████████████████████████████▏ | 2705/7135 [2:27:23<3:59:05, 3.24s/it]
38%|█████████████████████████████████████▏ | 2706/7135 [2:27:26<3:46:05, 3.06s/it]
38%|█████████████████████████████████████▏ | 2707/7135 [2:27:28<3:37:00, 2.94s/it]
38%|█████████████████████████████████████▏ | 2708/7135 [2:27:31<3:34:18, 2.90s/it]
38%|█████████████████████████████████████▏ | 2709/7135 [2:27:35<3:41:57, 3.01s/it]
38%|█████████████████████████████████████▏ | 2710/7135 [2:27:38<3:57:30, 3.22s/it]
{'loss': 0.7416, 'grad_norm': 5.6875, 'learning_rate': 3.486667308895695e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 308.79, 'epoch': 3.8}
38%|█████████████████████████████████████▏ | 2710/7135 [2:27:38<3:57:30, 3.22s/it]
38%|█████████████████████████████████████▏ | 2711/7135 [2:27:41<3:54:48, 3.18s/it]
38%|█████████████████████████████████████▏ | 2712/7135 [2:27:45<4:07:05, 3.35s/it]
38%|█████████████████████████████████████▎ | 2713/7135 [2:27:48<4:04:59, 3.32s/it]
38%|█████████████████████████████████████▎ | 2714/7135 [2:27:52<4:02:03, 3.29s/it]
38%|█████████████████████████████████████▎ | 2715/7135 [2:27:55<4:03:27, 3.30s/it]
38%|█████████████████████████████████████▎ | 2716/7135 [2:27:58<4:02:18, 3.29s/it]
38%|█████████████████████████████████████▎ | 2717/7135 [2:28:02<4:04:40, 3.32s/it]
38%|█████████████████████████████████████▎ | 2718/7135 [2:28:04<3:49:40, 3.12s/it]
38%|█████████████████████████████████████▎ | 2719/7135 [2:28:07<3:47:58, 3.10s/it]
38%|█████████████████████████████████████▎ | 2720/7135 [2:28:11<3:59:41, 3.26s/it]
{'loss': 0.8566, 'grad_norm': 5.4375, 'learning_rate': 3.4763996102734433e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.43, 'epoch': 3.81}
38%|█████████████████████████████████████▎ | 2720/7135 [2:28:11<3:59:41, 3.26s/it]
38%|█████████████████████████████████████▎ | 2721/7135 [2:28:15<4:09:18, 3.39s/it]
38%|█████████████████████████████████████▍ | 2722/7135 [2:28:18<4:02:07, 3.29s/it]
38%|█████████████████████████████████████▍ | 2723/7135 [2:28:21<4:02:46, 3.30s/it]
38%|█████████████████████████████████████▍ | 2724/7135 [2:28:24<4:07:32, 3.37s/it]
38%|█████████████████████████████████████▍ | 2725/7135 [2:28:28<4:07:57, 3.37s/it]
38%|█████████████████████████████████████▍ | 2726/7135 [2:28:31<3:57:38, 3.23s/it]
38%|█████████████████████████████████████▍ | 2727/7135 [2:28:34<3:53:10, 3.17s/it]
38%|█████████████████████████████████████▍ | 2728/7135 [2:28:38<4:05:50, 3.35s/it]
38%|█████████████████████████████████████▍ | 2729/7135 [2:28:41<4:05:25, 3.34s/it]
38%|█████████████████████████████████████▍ | 2730/7135 [2:28:44<4:00:29, 3.28s/it]
{'loss': 0.7297, 'grad_norm': 3.921875, 'learning_rate': 3.4661124401956442e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 431.34, 'epoch': 3.82}
38%|█████████████████████████████████████▍ | 2730/7135 [2:28:44<4:00:29, 3.28s/it]
38%|█████████████████████████████████████▌ | 2731/7135 [2:28:47<3:59:36, 3.26s/it]
38%|█████████████████████████████████████▌ | 2732/7135 [2:28:50<3:52:13, 3.16s/it]
38%|█████████████████████████████████████▌ | 2733/7135 [2:28:53<3:44:10, 3.06s/it]
38%|█████████████████████████████████████▌ | 2734/7135 [2:28:56<3:44:57, 3.07s/it]
38%|█████████████████████████████████████▌ | 2735/7135 [2:29:00<3:58:32, 3.25s/it]
38%|█████████████████████████████████████▌ | 2736/7135 [2:29:03<3:57:38, 3.24s/it]
38%|█████████████████████████████████████▌ | 2737/7135 [2:29:06<3:53:34, 3.19s/it]
38%|█████████████████████████████████████▌ | 2738/7135 [2:29:09<3:51:19, 3.16s/it]
38%|█████████████████████████████████████▌ | 2739/7135 [2:29:12<3:54:32, 3.20s/it]
38%|█████████████████████████████████████▋ | 2740/7135 [2:29:15<3:42:04, 3.03s/it]
{'loss': 0.7251, 'grad_norm': 5.5, 'learning_rate': 3.4558060038100387e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 475.25, 'epoch': 3.84}
38%|█████████████████████████████████████▋ | 2740/7135 [2:29:15<3:42:04, 3.03s/it]
38%|█████████████████████████████████████▋ | 2741/7135 [2:29:18<3:49:10, 3.13s/it]
38%|█████████████████████████████████████▋ | 2742/7135 [2:29:22<3:51:17, 3.16s/it]
38%|█████████████████████████████████████▋ | 2743/7135 [2:29:25<3:50:30, 3.15s/it]
38%|█████████████████████████████████████▋ | 2744/7135 [2:29:28<3:58:03, 3.25s/it]
38%|█████████████████████████████████████▋ | 2745/7135 [2:29:31<3:56:05, 3.23s/it]
38%|█████████████████████████████████████▋ | 2746/7135 [2:29:35<3:59:13, 3.27s/it]
39%|█████████████████████████████████████▋ | 2747/7135 [2:29:38<3:53:01, 3.19s/it]
39%|█████████████████████████████████████▋ | 2748/7135 [2:29:41<3:49:12, 3.13s/it]
39%|█████████████████████████████████████▊ | 2749/7135 [2:29:43<3:38:44, 2.99s/it]
39%|█████████████████████████████████████▊ | 2750/7135 [2:29:47<3:47:15, 3.11s/it]
{'loss': 0.7414, 'grad_norm': 6.59375, 'learning_rate': 3.4454805066485787e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 321.56, 'epoch': 3.85}
39%|█████████████████████████████████████▊ | 2750/7135 [2:29:47<3:47:15, 3.11s/it]
39%|█████████████████████████████████████▊ | 2751/7135 [2:29:52<4:23:07, 3.60s/it]
39%|█████████████████████████████████████▊ | 2752/7135 [2:29:55<4:18:37, 3.54s/it]
39%|█████████████████████████████████████▊ | 2753/7135 [2:29:58<4:05:04, 3.36s/it]
39%|█████████████████████████████████████▊ | 2754/7135 [2:30:01<4:09:30, 3.42s/it]
39%|█████████████████████████████████████▊ | 2755/7135 [2:30:05<4:04:46, 3.35s/it]
39%|█████████████████████████████████████▊ | 2756/7135 [2:30:08<3:55:31, 3.23s/it]
39%|█████████████████████████████████████▊ | 2757/7135 [2:30:11<3:53:13, 3.20s/it]
39%|█████████████████████████████████████▉ | 2758/7135 [2:30:14<3:54:47, 3.22s/it]
39%|█████████████████████████████████████▉ | 2759/7135 [2:30:18<4:03:59, 3.35s/it]
39%|█████████████████████████████████████▉ | 2760/7135 [2:30:21<3:56:37, 3.25s/it]
{'loss': 0.6902, 'grad_norm': 5.3125, 'learning_rate': 3.4351361546233273e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 387.23, 'epoch': 3.87}
39%|█████████████████████████████████████▉ | 2760/7135 [2:30:21<3:56:37, 3.25s/it]
39%|█████████████████████████████████████▉ | 2761/7135 [2:30:24<3:48:17, 3.13s/it]
39%|█████████████████████████████████████▉ | 2762/7135 [2:30:27<3:51:18, 3.17s/it]
39%|█████████████████████████████████████▉ | 2763/7135 [2:30:30<3:53:06, 3.20s/it]
39%|█████████████████████████████████████▉ | 2764/7135 [2:30:34<4:01:04, 3.31s/it]
39%|█████████████████████████████████████▉ | 2765/7135 [2:30:37<3:54:59, 3.23s/it]
39%|█████████████████████████████████████▉ | 2766/7135 [2:30:40<3:56:47, 3.25s/it]
39%|██████████████████████████████████████ | 2767/7135 [2:30:43<3:55:40, 3.24s/it]
39%|██████████████████████████████████████ | 2768/7135 [2:30:46<3:51:43, 3.18s/it]
39%|██████████████████████████████████████ | 2769/7135 [2:30:50<3:55:29, 3.24s/it]
39%|██████████████████████████████████████ | 2770/7135 [2:30:53<4:00:16, 3.30s/it]
{'loss': 0.9034, 'grad_norm': 4.75, 'learning_rate': 3.4247731540223554e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.28, 'epoch': 3.88}
39%|██████████████████████████████████████ | 2770/7135 [2:30:53<4:00:16, 3.30s/it]
39%|██████████████████████████████████████ | 2771/7135 [2:30:57<4:05:15, 3.37s/it]
39%|██████████████████████████████████████ | 2772/7135 [2:31:00<3:58:25, 3.28s/it]
39%|██████████████████████████████████████ | 2773/7135 [2:31:03<3:54:22, 3.22s/it]
39%|██████████████████████████████████████ | 2774/7135 [2:31:06<3:47:28, 3.13s/it]
39%|██████████████████████████████████████ | 2775/7135 [2:31:09<4:00:46, 3.31s/it]
39%|██████████████████████████████████████▏ | 2776/7135 [2:31:13<4:04:36, 3.37s/it]
39%|██████████████████████████████████████▏ | 2777/7135 [2:31:16<4:00:16, 3.31s/it]
39%|██████████████████████████████████████▏ | 2778/7135 [2:31:19<3:52:44, 3.21s/it]
39%|██████████████████████████████████████▏ | 2779/7135 [2:31:22<3:54:51, 3.23s/it]
39%|██████████████████████████████████████▏ | 2780/7135 [2:31:26<4:00:45, 3.32s/it]
{'loss': 0.7192, 'grad_norm': 4.03125, 'learning_rate': 3.414391711505624e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.17, 'epoch': 3.89}
39%|██████████████████████████████████████▏ | 2780/7135 [2:31:26<4:00:45, 3.32s/it]
39%|██████████████████████████████████████▏ | 2781/7135 [2:31:29<4:03:32, 3.36s/it]
39%|██████████████████████████████████████▏ | 2782/7135 [2:31:32<3:55:06, 3.24s/it]
39%|██████████████████████████████████████▏ | 2783/7135 [2:31:35<3:45:16, 3.11s/it]
39%|██████████████████████████████████████▏ | 2784/7135 [2:31:38<3:49:58, 3.17s/it]
39%|██████████████████████████████████████▎ | 2785/7135 [2:31:42<4:08:52, 3.43s/it]
39%|██████████████████████████████████████▎ | 2786/7135 [2:31:46<4:19:25, 3.58s/it]
39%|██████████████████████████████████████▎ | 2787/7135 [2:31:49<4:05:16, 3.38s/it]
39%|██████████████████████████████████████▎ | 2788/7135 [2:31:53<4:13:08, 3.49s/it]
39%|██████████████████████████████████████▎ | 2789/7135 [2:31:56<4:12:57, 3.49s/it]
39%|██████████████████████████████████████▎ | 2790/7135 [2:32:00<4:05:02, 3.38s/it]
{'loss': 0.8287, 'grad_norm': 6.5625, 'learning_rate': 3.4039920341008635e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 571.95, 'epoch': 3.91}
39%|██████████████████████████████████████▎ | 2790/7135 [2:32:00<4:05:02, 3.38s/it]
39%|██████████████████████████████████████▎ | 2791/7135 [2:32:03<4:02:40, 3.35s/it]
39%|██████████████████████████████████████▎ | 2792/7135 [2:32:06<4:03:02, 3.36s/it]
39%|██████████████████████████████████████▎ | 2793/7135 [2:32:09<3:55:39, 3.26s/it]
39%|██████████████████████████████████████▍ | 2794/7135 [2:32:12<3:45:49, 3.12s/it]
39%|██████████████████████████████████████▍ | 2795/7135 [2:32:15<3:45:06, 3.11s/it]
39%|██████████████████████████████████████▍ | 2796/7135 [2:32:18<3:48:59, 3.17s/it]
39%|██████████████████████████████████████▍ | 2797/7135 [2:32:21<3:38:50, 3.03s/it]
39%|██████████████████████████████████████▍ | 2798/7135 [2:32:24<3:38:18, 3.02s/it]
39%|██████████████████████████████████████▍ | 2799/7135 [2:32:27<3:42:55, 3.08s/it]
39%|██████████████████████████████████████▍ | 2800/7135 [2:32:31<3:43:12, 3.09s/it]
{'loss': 0.8662, 'grad_norm': 5.59375, 'learning_rate': 3.3935743291994487e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.6, 'epoch': 3.92}
39%|██████████████████████████████████████▍ | 2800/7135 [2:32:31<3:43:12, 3.09s/it]
39%|██████████████████████████████████████▍ | 2801/7135 [2:32:34<3:44:01, 3.10s/it]
39%|██████████████████████████████████████▍ | 2802/7135 [2:32:37<3:57:28, 3.29s/it]
39%|██████████████████████████████████████▍ | 2803/7135 [2:32:40<3:47:57, 3.16s/it]
39%|██████████████████████████████████████▌ | 2804/7135 [2:32:44<3:55:24, 3.26s/it]
39%|██████████████████████████████████████▌ | 2805/7135 [2:32:47<4:02:28, 3.36s/it]
39%|██████████████████████████████████████▌ | 2806/7135 [2:32:51<4:00:41, 3.34s/it]
39%|██████████████████████████████████████▌ | 2807/7135 [2:32:54<4:02:33, 3.36s/it]
39%|██████████████████████████████████████▌ | 2808/7135 [2:32:57<3:48:32, 3.17s/it]
39%|██████████████████████████████████████▌ | 2809/7135 [2:33:00<3:44:08, 3.11s/it]
39%|██████████████████████████████████████▌ | 2810/7135 [2:33:03<3:39:52, 3.05s/it]
{'loss': 0.8707, 'grad_norm': 12.5, 'learning_rate': 3.383138804552259e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 557.45, 'epoch': 3.94}
39%|██████████████████████████████████████▌ | 2810/7135 [2:33:03<3:39:52, 3.05s/it]
39%|██████████████████████████████████████▌ | 2811/7135 [2:33:06<3:37:17, 3.02s/it]
39%|██████████████████████████████████████▌ | 2812/7135 [2:33:09<3:40:31, 3.06s/it]
39%|██████████████████████████████████████▋ | 2813/7135 [2:33:12<3:41:01, 3.07s/it]
39%|██████████████████████████████████████▋ | 2814/7135 [2:33:15<3:43:35, 3.10s/it]
39%|██████████████████████████████████████▋ | 2815/7135 [2:33:18<3:49:56, 3.19s/it]
39%|██████████████████████████████████████▋ | 2816/7135 [2:33:22<3:51:54, 3.22s/it]
39%|██████████████████████████████████████▋ | 2817/7135 [2:33:25<3:53:26, 3.24s/it]
39%|██████████████████████████████████████▋ | 2818/7135 [2:33:28<3:48:26, 3.18s/it]
40%|██████████████████████████████████████▋ | 2819/7135 [2:33:32<3:57:35, 3.30s/it]
40%|██████████████████████████████████████▋ | 2820/7135 [2:33:35<3:56:07, 3.28s/it]
{'loss': 0.7947, 'grad_norm': 2.8125, 'learning_rate': 3.3726856682655364e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 452.17, 'epoch': 3.95}
40%|██████████████████████████████████████▋ | 2820/7135 [2:33:35<3:56:07, 3.28s/it]
40%|██████████████████████████████████████▋ | 2821/7135 [2:33:38<4:02:49, 3.38s/it]
40%|██████████████████████████████████████▊ | 2822/7135 [2:33:41<3:51:35, 3.22s/it]
40%|██████████████████████████████████████▊ | 2823/7135 [2:33:44<3:51:03, 3.22s/it]
40%|██████████████████████████████████████▊ | 2824/7135 [2:33:48<3:47:34, 3.17s/it]
40%|██████████████████████████████████████▊ | 2825/7135 [2:33:50<3:37:32, 3.03s/it]
40%|██████████████████████████████████████▊ | 2826/7135 [2:33:54<3:59:11, 3.33s/it]
40%|██████████████████████████████████████▊ | 2827/7135 [2:33:57<3:54:52, 3.27s/it]
40%|██████████████████████████████████████▊ | 2828/7135 [2:34:02<4:14:20, 3.54s/it]
40%|██████████████████████████████████████▊ | 2829/7135 [2:34:04<3:59:39, 3.34s/it]
40%|██████████████████████████████████████▊ | 2830/7135 [2:34:07<3:43:55, 3.12s/it]
{'loss': 0.9051, 'grad_norm': 5.84375, 'learning_rate': 3.362215128796737e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 623.54, 'epoch': 3.96}
40%|██████████████████████████████████████▊ | 2830/7135 [2:34:07<3:43:55, 3.12s/it]
40%|██████████████████████████████████████▉ | 2831/7135 [2:34:11<3:53:56, 3.26s/it]
40%|██████████████████████████████████████▉ | 2832/7135 [2:34:14<3:46:31, 3.16s/it]
40%|██████████████████████████████████████▉ | 2833/7135 [2:34:17<3:43:27, 3.12s/it]
40%|██████████████████████████████████████▉ | 2834/7135 [2:34:20<3:51:12, 3.23s/it]
40%|██████████████████████████████████████▉ | 2835/7135 [2:34:23<3:53:11, 3.25s/it]
40%|██████████████████████████████████████▉ | 2836/7135 [2:34:26<3:43:08, 3.11s/it]
40%|██████████████████████████████████████▉ | 2837/7135 [2:34:30<4:05:08, 3.42s/it]
40%|██████████████████████████████████████▉ | 2838/7135 [2:34:34<4:02:22, 3.38s/it]
40%|██████████████████████████████████████▉ | 2839/7135 [2:34:37<4:03:32, 3.40s/it]
40%|███████████████████████████████████████ | 2840/7135 [2:34:40<3:55:13, 3.29s/it]
{'loss': 0.7915, 'grad_norm': 4.4375, 'learning_rate': 3.351727394950373e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 543.77, 'epoch': 3.98}
40%|███████████████████████████████████████ | 2840/7135 [2:34:40<3:55:13, 3.29s/it]
40%|███████████████████████████████████████ | 2841/7135 [2:34:45<4:22:45, 3.67s/it]
40%|███████████████████████████████████████ | 2842/7135 [2:34:48<4:08:03, 3.47s/it]
40%|███████████████████████████████████████ | 2843/7135 [2:34:51<3:56:47, 3.31s/it]
40%|███████████████████████████████████████ | 2844/7135 [2:34:54<3:55:25, 3.29s/it]
40%|███████████████████████████████████████ | 2845/7135 [2:34:57<3:48:16, 3.19s/it]
40%|███████████████████████████████████████ | 2846/7135 [2:35:00<3:49:33, 3.21s/it]
40%|███████████████████████████████████████ | 2847/7135 [2:35:03<3:54:38, 3.28s/it]
40%|███████████████████████████████████████ | 2848/7135 [2:35:07<3:56:53, 3.32s/it]
40%|███████████████████████████████████████▏ | 2849/7135 [2:35:10<3:56:38, 3.31s/it]
40%|███████████████████████████████████████▏ | 2850/7135 [2:35:14<4:05:33, 3.44s/it]
{'loss': 0.7365, 'grad_norm': 4.65625, 'learning_rate': 3.3412226758738475e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.11, 'epoch': 3.99}
40%|███████████████████████████████████████▏ | 2850/7135 [2:35:14<4:05:33, 3.44s/it]
40%|███████████████████████████████████████▏ | 2851/7135 [2:35:17<3:50:37, 3.23s/it]
40%|███████████████████████████████████████▏ | 2852/7135 [2:35:20<3:51:13, 3.24s/it]
40%|███████████████████████████████████████▏ | 2853/7135 [2:35:23<3:41:38, 3.11s/it]
40%|███████████████████████████████████████▏ | 2854/7135 [2:35:26<3:40:31, 3.09s/it]
40%|███████████████████████████████████████▏ | 2855/7135 [2:35:29<3:46:22, 3.17s/it]
40%|███████████████████████████████████████▏ | 2856/7135 [2:35:31<3:10:59, 2.68s/it][2025-12-23 16:59:36,819] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-2856
40%|██████████████████████████████████████▊ | 2857/7135 [2:36:33<24:18:17, 20.45s/it]
40%|██████████████████████████████████████▊ | 2858/7135 [2:36:35<18:02:17, 15.18s/it]
40%|██████████████████████████████████████▊ | 2859/7135 [2:36:38<13:35:18, 11.44s/it]
40%|██████████████████████████████████████▉ | 2860/7135 [2:36:41<10:35:59, 8.93s/it]
{'loss': 0.7066, 'grad_norm': 3.328125, 'learning_rate': 3.3307011810532852e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 381.53, 'epoch': 4.01}
40%|██████████████████████████████████████▉ | 2860/7135 [2:36:41<10:35:59, 8.93s/it]
40%|███████████████████████████████████████▎ | 2861/7135 [2:36:45<8:42:49, 7.34s/it]
40%|███████████████████████████████████████▎ | 2862/7135 [2:36:48<7:10:01, 6.04s/it]
40%|███████████████████████████████████████▎ | 2863/7135 [2:36:51<6:03:15, 5.10s/it]
40%|███████████████████████████████████████▎ | 2864/7135 [2:36:54<5:19:41, 4.49s/it]
40%|███████████████████████████████████████▎ | 2865/7135 [2:36:57<4:41:06, 3.95s/it]
40%|███████████████████████████████████████▎ | 2866/7135 [2:36:59<4:19:06, 3.64s/it]
40%|███████████████████████████████████████▍ | 2867/7135 [2:37:02<4:03:57, 3.43s/it]
40%|███████████████████████████████████████▍ | 2868/7135 [2:37:05<3:54:51, 3.30s/it]
40%|███████████████████████████████████████▍ | 2869/7135 [2:37:08<3:46:04, 3.18s/it]
40%|███████████████████████████████████████▍ | 2870/7135 [2:37:11<3:46:02, 3.18s/it]
{'loss': 0.7359, 'grad_norm': 4.375, 'learning_rate': 3.3201631203093547e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.67, 'epoch': 4.02}
40%|███████████████████████████████████████▍ | 2870/7135 [2:37:12<3:46:02, 3.18s/it]
40%|███████████████████████████████████████▍ | 2871/7135 [2:37:14<3:39:55, 3.09s/it]
40%|███████████████████████████████████████▍ | 2872/7135 [2:37:18<3:41:45, 3.12s/it]
40%|███████████████████████████████████████▍ | 2873/7135 [2:37:20<3:35:52, 3.04s/it]
40%|███████████████████████████████████████▍ | 2874/7135 [2:37:24<3:37:54, 3.07s/it]
40%|███████████████████████████████████████▍ | 2875/7135 [2:37:27<3:41:21, 3.12s/it]
40%|███████████████████████████████████████▌ | 2876/7135 [2:37:29<3:32:30, 2.99s/it]
40%|███████████████████████████████████████▌ | 2877/7135 [2:37:33<3:33:07, 3.00s/it]
40%|███████████████████████████████████████▌ | 2878/7135 [2:37:36<3:35:06, 3.03s/it]
40%|███████████████████████████████████████▌ | 2879/7135 [2:37:39<3:34:20, 3.02s/it]
40%|███████████████████████████████████████▌ | 2880/7135 [2:37:42<3:34:08, 3.02s/it]
{'loss': 0.6713, 'grad_norm': 5.5625, 'learning_rate': 3.3096087037930837e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 386.54, 'epoch': 4.03}
40%|███████████████████████████████████████▌ | 2880/7135 [2:37:42<3:34:08, 3.02s/it]
40%|███████████████████████████████████████▌ | 2881/7135 [2:37:45<3:40:00, 3.10s/it]
40%|███████████████████████████████████████▌ | 2882/7135 [2:37:48<3:44:58, 3.17s/it]
40%|███████████████████████████████████████▌ | 2883/7135 [2:37:51<3:42:20, 3.14s/it]
40%|███████████████████████████████████████▌ | 2884/7135 [2:37:54<3:41:26, 3.13s/it]
40%|███████████████████████████████████████▋ | 2885/7135 [2:37:57<3:37:36, 3.07s/it]
40%|███████████████████████████████████████▋ | 2886/7135 [2:38:01<3:39:12, 3.10s/it]
40%|███████████████████████████████████████▋ | 2887/7135 [2:38:04<3:43:20, 3.15s/it]
40%|███████████████████████████████████████▋ | 2888/7135 [2:38:07<3:36:10, 3.05s/it]
40%|███████████████████████████████████████▋ | 2889/7135 [2:38:10<3:51:12, 3.27s/it]
41%|███████████████████████████████████████▋ | 2890/7135 [2:38:14<3:50:08, 3.25s/it]
{'loss': 0.7432, 'grad_norm': 4.53125, 'learning_rate': 3.299038141981667e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 343.89, 'epoch': 4.05}
41%|███████████████████████████████████████▋ | 2890/7135 [2:38:14<3:50:08, 3.25s/it]
41%|███████████████████████████████████████▋ | 2891/7135 [2:38:17<3:46:58, 3.21s/it]
41%|███████████████████████████████████████▋ | 2892/7135 [2:38:20<3:42:59, 3.15s/it]
41%|███████████████████████████████████████▋ | 2893/7135 [2:38:23<3:35:12, 3.04s/it]
41%|███████████████████████████████████████▋ | 2894/7135 [2:38:25<3:31:09, 2.99s/it]
41%|███████████████████████████████████████▊ | 2895/7135 [2:38:29<3:42:52, 3.15s/it]
41%|███████████████████████████████████████▊ | 2896/7135 [2:38:32<3:47:17, 3.22s/it]
41%|███████████████████████████████████████▊ | 2897/7135 [2:38:35<3:38:09, 3.09s/it]
41%|███████████████████████████████████████▊ | 2898/7135 [2:38:38<3:36:05, 3.06s/it]
41%|███████████████████████████████████████▊ | 2899/7135 [2:38:42<3:56:33, 3.35s/it]
41%|███████████████████████████████████████▊ | 2900/7135 [2:38:46<4:02:58, 3.44s/it]
{'loss': 1.0014, 'grad_norm': 4.96875, 'learning_rate': 3.2884516456742723e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.01, 'epoch': 4.06}
41%|███████████████████████████████████████▊ | 2900/7135 [2:38:46<4:02:58, 3.44s/it]
41%|███████████████████████████████████████▊ | 2901/7135 [2:38:49<3:53:36, 3.31s/it]
41%|███████████████████████████████████████▊ | 2902/7135 [2:38:52<3:55:53, 3.34s/it]
41%|███████████████████████████████████████▊ | 2903/7135 [2:38:55<3:46:57, 3.22s/it]
41%|███████████████████████████████████████▉ | 2904/7135 [2:38:58<3:46:30, 3.21s/it]
41%|███████████████████████████████████████▉ | 2905/7135 [2:39:02<3:54:17, 3.32s/it]
41%|███████████████████████████████████████▉ | 2906/7135 [2:39:06<4:02:05, 3.43s/it]
41%|███████████████████████████████████████▉ | 2907/7135 [2:39:09<3:55:36, 3.34s/it]
41%|███████████████████████████████████████▉ | 2908/7135 [2:39:12<3:48:59, 3.25s/it]
41%|███████████████████████████████████████▉ | 2909/7135 [2:39:15<3:47:23, 3.23s/it]
41%|███████████████████████████████████████▉ | 2910/7135 [2:39:18<3:44:26, 3.19s/it]
{'loss': 0.7683, 'grad_norm': 5.9375, 'learning_rate': 3.277849425987834e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.65, 'epoch': 4.08}
41%|███████████████████████████████████████▉ | 2910/7135 [2:39:18<3:44:26, 3.19s/it]
41%|███████████████████████████████████████▉ | 2911/7135 [2:39:21<3:49:39, 3.26s/it]
41%|███████████████████████████████████████▉ | 2912/7135 [2:39:24<3:39:46, 3.12s/it]
41%|████████████████████████████████████████ | 2913/7135 [2:39:28<3:51:10, 3.29s/it]
41%|████████████████████████████████████████ | 2914/7135 [2:39:32<3:59:21, 3.40s/it]
41%|████████████████████████████████████████ | 2915/7135 [2:39:35<4:05:29, 3.49s/it]
41%|████████████████████████████████████████ | 2916/7135 [2:39:38<3:55:08, 3.34s/it]
41%|████████████████████████████████████████ | 2917/7135 [2:39:42<3:55:37, 3.35s/it]
41%|████████████████████████████████████████ | 2918/7135 [2:39:45<3:50:10, 3.27s/it]
41%|████████████████████████████████████████ | 2919/7135 [2:39:48<3:39:24, 3.12s/it]
41%|████████████████████████████████████████ | 2920/7135 [2:39:50<3:34:13, 3.05s/it]
{'loss': 0.8906, 'grad_norm': 4.96875, 'learning_rate': 3.2672316943528432e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 460.15, 'epoch': 4.09}
41%|████████████████████████████████████████ | 2920/7135 [2:39:50<3:34:13, 3.05s/it]
41%|████████████████████████████████████████ | 2921/7135 [2:39:54<3:43:53, 3.19s/it]
41%|████████████████████████████████████████▏ | 2922/7135 [2:39:57<3:45:54, 3.22s/it]
41%|████████████████████████████████████████▏ | 2923/7135 [2:40:01<3:53:45, 3.33s/it]
41%|████████████████████████████████████████▏ | 2924/7135 [2:40:04<3:56:36, 3.37s/it]
41%|████████████████████████████████████████▏ | 2925/7135 [2:40:07<3:48:21, 3.25s/it]
41%|████████████████████████████████████████▏ | 2926/7135 [2:40:11<3:55:57, 3.36s/it]
41%|████████████████████████████████████████▏ | 2927/7135 [2:40:15<4:03:06, 3.47s/it]
41%|████████████████████████████████████████▏ | 2928/7135 [2:40:18<3:54:37, 3.35s/it]
41%|████████████████████████████████████████▏ | 2929/7135 [2:40:21<3:47:54, 3.25s/it]
41%|████████████████████████████████████████▏ | 2930/7135 [2:40:24<3:53:24, 3.33s/it]
{'loss': 0.7114, 'grad_norm': 4.28125, 'learning_rate': 3.256598662509132e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.0, 'epoch': 4.1}
41%|████████████████████████████████████████▏ | 2930/7135 [2:40:24<3:53:24, 3.33s/it]
41%|████████████████████████████████████████▎ | 2931/7135 [2:40:28<3:53:53, 3.34s/it]
41%|████████████████████████████████████████▎ | 2932/7135 [2:40:30<3:46:07, 3.23s/it]
41%|████████████████████████████████████████▎ | 2933/7135 [2:40:34<3:44:08, 3.20s/it]
41%|████████████████████████████████████████▎ | 2934/7135 [2:40:37<3:48:38, 3.27s/it]
41%|████████████████████████████████████████▎ | 2935/7135 [2:40:41<3:53:25, 3.33s/it]
41%|████████████████████████████████████████▎ | 2936/7135 [2:40:44<3:47:40, 3.25s/it]
41%|████████████████████████████████████████▎ | 2937/7135 [2:40:47<3:47:16, 3.25s/it]
41%|████████████████████████████████████████▎ | 2938/7135 [2:40:50<3:37:29, 3.11s/it]
41%|████████████████████████████████████████▎ | 2939/7135 [2:40:52<3:30:19, 3.01s/it]
41%|████████████████████████████████████████▍ | 2940/7135 [2:40:56<3:41:16, 3.16s/it]
{'loss': 0.8068, 'grad_norm': 2.984375, 'learning_rate': 3.24595054250165e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.68, 'epoch': 4.12}
41%|████████████████████████████████████████▍ | 2940/7135 [2:40:56<3:41:16, 3.16s/it]
41%|████████████████████████████████████████▍ | 2941/7135 [2:40:59<3:33:00, 3.05s/it]
41%|████████████████████████████████████████▍ | 2942/7135 [2:41:02<3:29:27, 3.00s/it]
41%|████████████████████████████████████████▍ | 2943/7135 [2:41:06<3:55:01, 3.36s/it]
41%|████████████████████████████████████████▍ | 2944/7135 [2:41:09<3:49:50, 3.29s/it]
41%|████████████████████████████████████████▍ | 2945/7135 [2:41:12<3:52:18, 3.33s/it]
41%|████████████████████████████████████████▍ | 2946/7135 [2:41:15<3:35:07, 3.08s/it]
41%|████████████████████████████████████████▍ | 2947/7135 [2:41:18<3:31:46, 3.03s/it]
41%|████████████████████████████████████████▍ | 2948/7135 [2:41:22<3:52:29, 3.33s/it]
41%|████████████████████████████████████████▌ | 2949/7135 [2:41:25<3:46:39, 3.25s/it]
41%|████████████████████████████████████████▌ | 2950/7135 [2:41:28<3:48:57, 3.28s/it]
{'loss': 0.6748, 'grad_norm': 4.40625, 'learning_rate': 3.2352875466762386e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 347.76, 'epoch': 4.13}
41%|████████████████████████████████████████▌ | 2950/7135 [2:41:28<3:48:57, 3.28s/it]
41%|████████████████████████████████████████▌ | 2951/7135 [2:41:31<3:44:44, 3.22s/it]
41%|████████████████████████████████████████▌ | 2952/7135 [2:41:34<3:42:57, 3.20s/it]
41%|████████████████████████████████████████▌ | 2953/7135 [2:41:37<3:37:44, 3.12s/it]
41%|████████████████████████████████████████▌ | 2954/7135 [2:41:41<3:49:25, 3.29s/it]
41%|████████████████████████████████████████▌ | 2955/7135 [2:41:44<3:43:53, 3.21s/it]
41%|████████████████████████████████████████▌ | 2956/7135 [2:41:47<3:36:20, 3.11s/it]
41%|████████████████████████████████████████▌ | 2957/7135 [2:41:50<3:25:55, 2.96s/it]
41%|████████████████████████████████████████▋ | 2958/7135 [2:41:53<3:30:35, 3.02s/it]
41%|████████████████████████████████████████▋ | 2959/7135 [2:41:56<3:30:26, 3.02s/it]
41%|████████████████████████████████████████▋ | 2960/7135 [2:41:59<3:28:07, 2.99s/it]
{'loss': 0.7354, 'grad_norm': 5.09375, 'learning_rate': 3.224609887675392e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 412.52, 'epoch': 4.15}
41%|████████████████████████████████████████▋ | 2960/7135 [2:41:59<3:28:07, 2.99s/it]
41%|████████████████████████████████████████▋ | 2961/7135 [2:42:02<3:38:07, 3.14s/it]
42%|████████████████████████████████████████▋ | 2962/7135 [2:42:05<3:34:57, 3.09s/it]
42%|████████████████████████████████████████▋ | 2963/7135 [2:42:09<3:42:44, 3.20s/it]
42%|████████████████████████████████████████▋ | 2964/7135 [2:42:12<3:44:44, 3.23s/it]
42%|████████████████████████████████████████▋ | 2965/7135 [2:42:15<3:51:57, 3.34s/it]
42%|████████████████████████████████████████▋ | 2966/7135 [2:42:19<3:50:08, 3.31s/it]
42%|████████████████████████████████████████▊ | 2967/7135 [2:42:22<3:49:15, 3.30s/it]
42%|████████████████████████████████████████▊ | 2968/7135 [2:42:25<3:50:19, 3.32s/it]
42%|████████████████████████████████████████▊ | 2969/7135 [2:42:29<3:48:09, 3.29s/it]
42%|████████████████████████████████████████▊ | 2970/7135 [2:42:32<3:43:36, 3.22s/it]
{'loss': 0.767, 'grad_norm': 5.03125, 'learning_rate': 3.213917778434019e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 446.27, 'epoch': 4.16}
42%|████████████████████████████████████████▊ | 2970/7135 [2:42:32<3:43:36, 3.22s/it]
42%|████████████████████████████████████████▊ | 2971/7135 [2:42:35<3:53:30, 3.36s/it]
42%|████████████████████████████████████████▊ | 2972/7135 [2:42:39<3:49:41, 3.31s/it]
42%|████████████████████████████████████████▊ | 2973/7135 [2:42:42<3:52:08, 3.35s/it]
42%|████████████████████████████████████████▊ | 2974/7135 [2:42:45<3:47:49, 3.29s/it]
42%|████████████████████████████████████████▊ | 2975/7135 [2:42:49<3:57:02, 3.42s/it]
42%|████████████████████████████████████████▉ | 2976/7135 [2:42:52<3:56:28, 3.41s/it]
42%|████████████████████████████████████████▉ | 2977/7135 [2:42:56<3:57:05, 3.42s/it]
42%|████████████████████████████████████████▉ | 2978/7135 [2:42:59<3:58:51, 3.45s/it]
42%|████████████████████████████████████████▉ | 2979/7135 [2:43:02<3:40:40, 3.19s/it]
42%|████████████████████████████████████████▉ | 2980/7135 [2:43:05<3:42:47, 3.22s/it]
{'loss': 0.7931, 'grad_norm': 4.9375, 'learning_rate': 3.203211432175199e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 464.98, 'epoch': 4.17}
42%|████████████████████████████████████████▉ | 2980/7135 [2:43:05<3:42:47, 3.22s/it]
42%|████████████████████████████████████████▉ | 2981/7135 [2:43:09<4:03:53, 3.52s/it]
42%|████████████████████████████████████████▉ | 2982/7135 [2:43:12<3:45:15, 3.25s/it]
42%|████████████████████████████████████████▉ | 2983/7135 [2:43:16<3:53:03, 3.37s/it]
42%|████████████████████████████████████████▉ | 2984/7135 [2:43:19<3:45:36, 3.26s/it]
42%|████████████████████████████████████████▉ | 2985/7135 [2:43:22<3:42:49, 3.22s/it]
42%|█████████████████████████████████████████ | 2986/7135 [2:43:25<3:42:43, 3.22s/it]
42%|█████████████████████████████████████████ | 2987/7135 [2:43:28<3:37:15, 3.14s/it]
42%|█████████████████████████████████████████ | 2988/7135 [2:43:31<3:45:51, 3.27s/it]
42%|█████████████████████████████████████████ | 2989/7135 [2:43:35<3:43:04, 3.23s/it]
42%|█████████████████████████████████████████ | 2990/7135 [2:43:38<3:50:42, 3.34s/it]
{'loss': 0.6778, 'grad_norm': 4.9375, 'learning_rate': 3.1924910624059235e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 395.32, 'epoch': 4.19}
42%|█████████████████████████████████████████ | 2990/7135 [2:43:38<3:50:42, 3.34s/it]
42%|█████████████████████████████████████████ | 2991/7135 [2:43:41<3:35:59, 3.13s/it]
42%|█████████████████████████████████████████ | 2992/7135 [2:43:45<3:52:40, 3.37s/it]
42%|█████████████████████████████████████████ | 2993/7135 [2:43:48<3:58:50, 3.46s/it]
42%|█████████████████████████████████████████ | 2994/7135 [2:43:51<3:49:40, 3.33s/it]
42%|█████████████████████████████████████████▏ | 2995/7135 [2:43:55<3:55:33, 3.41s/it]
42%|█████████████████████████████████████████▏ | 2996/7135 [2:43:58<3:50:34, 3.34s/it]
42%|█████████████████████████████████████████▏ | 2997/7135 [2:44:01<3:46:56, 3.29s/it]
42%|█████████████████████████████████████████▏ | 2998/7135 [2:44:05<3:52:06, 3.37s/it]
42%|█████████████████████████████████████████▏ | 2999/7135 [2:44:08<3:48:37, 3.32s/it]
42%|█████████████████████████████████████████▏ | 3000/7135 [2:44:11<3:39:32, 3.19s/it]
{'loss': 0.7223, 'grad_norm': 6.71875, 'learning_rate': 3.1817568829128456e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.47, 'epoch': 4.2}
42%|█████████████████████████████████████████▏ | 3000/7135 [2:44:11<3:39:32, 3.19s/it]
42%|█████████████████████████████████████████▏ | 3001/7135 [2:44:14<3:35:45, 3.13s/it]
42%|█████████████████████████████████████████▏ | 3002/7135 [2:44:17<3:31:44, 3.07s/it]
42%|█████████████████████████████████████████▏ | 3003/7135 [2:44:20<3:34:24, 3.11s/it]
42%|█████████████████████████████████████████▎ | 3004/7135 [2:44:23<3:35:23, 3.13s/it]
42%|█████████████████████████████████████████▎ | 3005/7135 [2:44:27<3:36:29, 3.15s/it]
42%|█████████████████████████████████████████▎ | 3006/7135 [2:44:30<3:38:44, 3.18s/it]
42%|█████████████████████████████████████████▎ | 3007/7135 [2:44:33<3:43:15, 3.25s/it]
42%|█████████████████████████████████████████▎ | 3008/7135 [2:44:37<3:46:06, 3.29s/it]
42%|█████████████████████████████████████████▎ | 3009/7135 [2:44:40<3:46:56, 3.30s/it]
42%|█████████████████████████████████████████▎ | 3010/7135 [2:44:44<3:56:50, 3.45s/it]
{'loss': 0.7275, 'grad_norm': 5.09375, 'learning_rate': 3.1710091077580105e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 329.2, 'epoch': 4.22}
42%|█████████████████████████████████████████▎ | 3010/7135 [2:44:44<3:56:50, 3.45s/it]
42%|█████████████████████████████████████████▎ | 3011/7135 [2:44:46<3:41:44, 3.23s/it]
42%|█████████████████████████████████████████▎ | 3012/7135 [2:44:49<3:29:40, 3.05s/it]
42%|█████████████████████████████████████████▍ | 3013/7135 [2:44:53<3:56:50, 3.45s/it]
42%|█████████████████████████████████████████▍ | 3014/7135 [2:44:57<4:01:11, 3.51s/it]
42%|█████████████████████████████████████████▍ | 3015/7135 [2:45:01<4:03:54, 3.55s/it]
42%|█████████████████████████████████████████▍ | 3016/7135 [2:45:04<3:56:27, 3.44s/it]
42%|█████████████████████████████████████████▍ | 3017/7135 [2:45:07<3:50:15, 3.35s/it]
42%|█████████████████████████████████████████▍ | 3018/7135 [2:45:10<3:45:53, 3.29s/it]
42%|█████████████████████████████████████████▍ | 3019/7135 [2:45:13<3:43:24, 3.26s/it]
42%|█████████████████████████████████████████▍ | 3020/7135 [2:45:16<3:40:30, 3.22s/it]
{'loss': 0.8518, 'grad_norm': 4.25, 'learning_rate': 3.1602479512745922e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.55, 'epoch': 4.23}
42%|█████████████████████████████████████████▍ | 3020/7135 [2:45:17<3:40:30, 3.22s/it]
42%|█████████████████████████████████████████▍ | 3021/7135 [2:45:20<3:38:57, 3.19s/it]
42%|█████████████████████████████████████████▌ | 3022/7135 [2:45:23<3:40:01, 3.21s/it]
42%|█████████████████████████████████████████▌ | 3023/7135 [2:45:26<3:36:41, 3.16s/it]
42%|█████████████████████████████████████████▌ | 3024/7135 [2:45:29<3:39:10, 3.20s/it]
42%|█████████████████████████████████████████▌ | 3025/7135 [2:45:32<3:34:12, 3.13s/it]
42%|█████████████████████████████████████████▌ | 3026/7135 [2:45:35<3:34:41, 3.13s/it]
42%|█████████████████████████████████████████▌ | 3027/7135 [2:45:39<3:48:34, 3.34s/it]
42%|█████████████████████████████████████████▌ | 3028/7135 [2:45:42<3:37:06, 3.17s/it]
42%|█████████████████████████████████████████▌ | 3029/7135 [2:45:45<3:43:39, 3.27s/it]
42%|█████████████████████████████████████████▌ | 3030/7135 [2:45:49<3:54:07, 3.42s/it]
{'loss': 0.8061, 'grad_norm': 4.78125, 'learning_rate': 3.149473628062615e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.4, 'epoch': 4.24}
42%|█████████████████████████████████████████▌ | 3030/7135 [2:45:49<3:54:07, 3.42s/it]
42%|█████████████████████████████████████████▋ | 3031/7135 [2:45:53<4:00:38, 3.52s/it]
42%|█████████████████████████████████████████▋ | 3032/7135 [2:45:56<3:55:08, 3.44s/it]
43%|█████████████████████████████████████████▋ | 3033/7135 [2:45:59<3:50:45, 3.38s/it]
43%|█████████████████████████████████████████▋ | 3034/7135 [2:46:03<3:52:34, 3.40s/it]
43%|█████████████████████████████████████████▋ | 3035/7135 [2:46:06<3:44:48, 3.29s/it]
43%|█████████████████████████████████████████▋ | 3036/7135 [2:46:09<3:49:20, 3.36s/it]
43%|█████████████████████████████████████████▋ | 3037/7135 [2:46:13<3:46:18, 3.31s/it]
43%|█████████████████████████████████████████▋ | 3038/7135 [2:46:16<3:52:48, 3.41s/it]
43%|█████████████████████████████████████████▋ | 3039/7135 [2:46:19<3:43:51, 3.28s/it]
43%|█████████████████████████████████████████▊ | 3040/7135 [2:46:22<3:40:48, 3.24s/it]
{'loss': 0.7926, 'grad_norm': 4.6875, 'learning_rate': 3.138686352984674e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.41, 'epoch': 4.26}
43%|█████████████████████████████████████████▊ | 3040/7135 [2:46:22<3:40:48, 3.24s/it]
43%|█████████████████████████████████████████▊ | 3041/7135 [2:46:26<3:46:25, 3.32s/it]
43%|█████████████████████████████████████████▊ | 3042/7135 [2:46:29<3:45:37, 3.31s/it]
43%|█████████████████████████████████████████▊ | 3043/7135 [2:46:32<3:35:20, 3.16s/it]
43%|█████████████████████████████████████████▊ | 3044/7135 [2:46:35<3:36:49, 3.18s/it]
43%|█████████████████████████████████████████▊ | 3045/7135 [2:46:39<3:41:48, 3.25s/it]
43%|█████████████████████████████████████████▊ | 3046/7135 [2:46:42<3:42:33, 3.27s/it]
43%|█████████████████████████████████████████▊ | 3047/7135 [2:46:45<3:39:56, 3.23s/it]
43%|█████████████████████████████████████████▊ | 3048/7135 [2:46:49<3:45:17, 3.31s/it]
43%|█████████████████████████████████████████▉ | 3049/7135 [2:46:51<3:33:55, 3.14s/it]
43%|█████████████████████████████████████████▉ | 3050/7135 [2:46:54<3:28:22, 3.06s/it]
{'loss': 0.7185, 'grad_norm': 4.4375, 'learning_rate': 3.1278863411616538e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 366.25, 'epoch': 4.27}
43%|█████████████████████████████████████████▉ | 3050/7135 [2:46:54<3:28:22, 3.06s/it]
43%|█████████████████████████████████████████▉ | 3051/7135 [2:46:58<3:37:00, 3.19s/it]
43%|█████████████████████████████████████████▉ | 3052/7135 [2:47:01<3:30:52, 3.10s/it]
43%|█████████████████████████████████████████▉ | 3053/7135 [2:47:04<3:32:57, 3.13s/it]
43%|█████████████████████████████████████████▉ | 3054/7135 [2:47:07<3:35:48, 3.17s/it]
43%|█████████████████████████████████████████▉ | 3055/7135 [2:47:10<3:33:37, 3.14s/it]
43%|█████████████████████████████████████████▉ | 3056/7135 [2:47:14<3:41:36, 3.26s/it]
43%|█████████████████████████████████████████▉ | 3057/7135 [2:47:17<3:45:57, 3.32s/it]
43%|██████████████████████████████████████████ | 3058/7135 [2:47:21<3:53:31, 3.44s/it]
43%|██████████████████████████████████████████ | 3059/7135 [2:47:25<4:08:24, 3.66s/it]
43%|██████████████████████████████████████████ | 3060/7135 [2:47:28<3:56:54, 3.49s/it]
{'loss': 1.068, 'grad_norm': 5.65625, 'learning_rate': 3.117073807968436e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 478.0, 'epoch': 4.29}
43%|██████████████████████████████████████████ | 3060/7135 [2:47:28<3:56:54, 3.49s/it]
43%|██████████████████████████████████████████ | 3061/7135 [2:47:32<3:55:55, 3.47s/it]
43%|██████████████████████████████████████████ | 3062/7135 [2:47:35<4:02:14, 3.57s/it]
43%|██████████████████████████████████████████ | 3063/7135 [2:47:39<3:58:33, 3.52s/it]
43%|██████████████████████████████████████████ | 3064/7135 [2:47:42<3:51:33, 3.41s/it]
43%|██████████████████████████████████████████ | 3065/7135 [2:47:45<3:45:11, 3.32s/it]
43%|██████████████████████████████████████████ | 3066/7135 [2:47:48<3:38:19, 3.22s/it]
43%|██████████████████████████████████████████▏ | 3067/7135 [2:47:51<3:37:44, 3.21s/it]
43%|██████████████████████████████████████████▏ | 3068/7135 [2:47:55<3:42:41, 3.29s/it]
43%|██████████████████████████████████████████▏ | 3069/7135 [2:47:58<3:35:29, 3.18s/it]
43%|██████████████████████████████████████████▏ | 3070/7135 [2:48:01<3:37:36, 3.21s/it]
{'loss': 0.7739, 'grad_norm': 4.1875, 'learning_rate': 3.1062489690296043e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.64, 'epoch': 4.3}
43%|██████████████████████████████████████████▏ | 3070/7135 [2:48:01<3:37:36, 3.21s/it]
43%|██████████████████████████████████████████▏ | 3071/7135 [2:48:04<3:27:46, 3.07s/it]
43%|██████████████████████████████████████████▏ | 3072/7135 [2:48:07<3:32:31, 3.14s/it]
43%|██████████████████████████████████████████▏ | 3073/7135 [2:48:10<3:23:55, 3.01s/it]
43%|██████████████████████████████████████████▏ | 3074/7135 [2:48:13<3:23:22, 3.00s/it]
43%|██████████████████████████████████████████▏ | 3075/7135 [2:48:15<3:19:47, 2.95s/it]
43%|██████████████████████████████████████████▏ | 3076/7135 [2:48:18<3:15:51, 2.90s/it]
43%|██████████████████████████████████████████▎ | 3077/7135 [2:48:21<3:14:38, 2.88s/it]
43%|██████████████████████████████████████████▎ | 3078/7135 [2:48:24<3:16:41, 2.91s/it]
43%|██████████████████████████████████████████▎ | 3079/7135 [2:48:27<3:13:32, 2.86s/it]
43%|██████████████████████████████████████████▎ | 3080/7135 [2:48:30<3:19:19, 2.95s/it]
{'loss': 0.6646, 'grad_norm': 5.0625, 'learning_rate': 3.0954120402151443e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 347.71, 'epoch': 4.31}
43%|██████████████████████████████████████████▎ | 3080/7135 [2:48:30<3:19:19, 2.95s/it]
43%|██████████████████████████████████████████▎ | 3081/7135 [2:48:33<3:19:05, 2.95s/it]
43%|██████████████████████████████████████████▎ | 3082/7135 [2:48:36<3:24:50, 3.03s/it]
43%|██████████████████████████████████████████▎ | 3083/7135 [2:48:39<3:25:02, 3.04s/it]
43%|██████████████████████████████████████████▎ | 3084/7135 [2:48:42<3:25:58, 3.05s/it]
43%|██████████████████████████████████████████▎ | 3085/7135 [2:48:46<3:43:37, 3.31s/it]
43%|██████████████████████████████████████████▍ | 3086/7135 [2:48:49<3:42:19, 3.29s/it]
43%|██████████████████████████████████████████▍ | 3087/7135 [2:48:53<3:41:41, 3.29s/it]
43%|██████████████████████████████████████████▍ | 3088/7135 [2:48:56<3:36:01, 3.20s/it]
43%|██████████████████████████████████████████▍ | 3089/7135 [2:48:59<3:38:35, 3.24s/it]
43%|██████████████████████████████████████████▍ | 3090/7135 [2:49:02<3:33:58, 3.17s/it]
{'loss': 0.8175, 'grad_norm': 5.4375, 'learning_rate': 3.08456323763614e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.84, 'epoch': 4.33}
43%|██████████████████████████████████████████▍ | 3090/7135 [2:49:02<3:33:58, 3.17s/it]
43%|██████████████████████████████████████████▍ | 3091/7135 [2:49:06<3:45:13, 3.34s/it]
43%|██████████████████████████████████████████▍ | 3092/7135 [2:49:09<3:34:26, 3.18s/it]
43%|██████████████████████████████████████████▍ | 3093/7135 [2:49:12<3:33:42, 3.17s/it]
43%|██████████████████████████████████████████▍ | 3094/7135 [2:49:15<3:40:29, 3.27s/it]
43%|██████████████████████████████████████████▌ | 3095/7135 [2:49:18<3:38:04, 3.24s/it]
43%|██████████████████████████████████████████▌ | 3096/7135 [2:49:22<3:42:28, 3.30s/it]
43%|██████████████████████████████████████████▌ | 3097/7135 [2:49:25<3:39:39, 3.26s/it]
43%|██████████████████████████████████████████▌ | 3098/7135 [2:49:28<3:41:00, 3.28s/it]
43%|██████████████████████████████████████████▌ | 3099/7135 [2:49:31<3:34:35, 3.19s/it]
43%|██████████████████████████████████████████▌ | 3100/7135 [2:49:35<3:39:03, 3.26s/it]
{'loss': 0.7486, 'grad_norm': 5.03125, 'learning_rate': 3.073702777640462e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.7, 'epoch': 4.34}
43%|██████████████████████████████████████████▌ | 3100/7135 [2:49:35<3:39:03, 3.26s/it]
43%|██████████████████████████████████████████▌ | 3101/7135 [2:49:38<3:33:41, 3.18s/it]
43%|██████████████████████████████████████████▌ | 3102/7135 [2:49:42<3:47:57, 3.39s/it]
43%|██████████████████████████████████████████▌ | 3103/7135 [2:49:44<3:34:39, 3.19s/it]
44%|██████████████████████████████████████████▋ | 3104/7135 [2:49:49<3:57:42, 3.54s/it]
44%|██████████████████████████████████████████▋ | 3105/7135 [2:49:52<3:51:26, 3.45s/it]
44%|██████████████████████████████████████████▋ | 3106/7135 [2:49:56<4:03:23, 3.62s/it]
44%|██████████████████████████████████████████▋ | 3107/7135 [2:49:59<3:53:07, 3.47s/it]
44%|██████████████████████████████████████████▋ | 3108/7135 [2:50:03<3:52:58, 3.47s/it]
44%|██████████████████████████████████████████▋ | 3109/7135 [2:50:05<3:42:07, 3.31s/it]
44%|██████████████████████████████████████████▋ | 3110/7135 [2:50:09<3:37:45, 3.25s/it]
{'loss': 0.7936, 'grad_norm': 6.125, 'learning_rate': 3.0628308768084547e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 583.2, 'epoch': 4.36}
44%|██████████████████████████████████████████▋ | 3110/7135 [2:50:09<3:37:45, 3.25s/it]
44%|██████████████████████████████████████████▋ | 3111/7135 [2:50:12<3:47:39, 3.39s/it]
44%|██████████████████████████████████████████▋ | 3112/7135 [2:50:15<3:35:53, 3.22s/it]
44%|██████████████████████████████████████████▊ | 3113/7135 [2:50:18<3:33:53, 3.19s/it]
44%|██████████████████████████████████████████▊ | 3114/7135 [2:50:22<3:37:43, 3.25s/it]
44%|██████████████████████████████████████████▊ | 3115/7135 [2:50:25<3:30:40, 3.14s/it]
44%|██████████████████████████████████████████▊ | 3116/7135 [2:50:28<3:29:27, 3.13s/it]
44%|██████████████████████████████████████████▊ | 3117/7135 [2:50:31<3:36:52, 3.24s/it]
44%|██████████████████████████████████████████▊ | 3118/7135 [2:50:34<3:33:08, 3.18s/it]
44%|██████████████████████████████████████████▊ | 3119/7135 [2:50:37<3:36:08, 3.23s/it]
44%|██████████████████████████████████████████▊ | 3120/7135 [2:50:40<3:24:49, 3.06s/it]
{'loss': 0.8324, 'grad_norm': 5.5625, 'learning_rate': 3.0519477519486172e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 426.58, 'epoch': 4.37}
44%|██████████████████████████████████████████▊ | 3120/7135 [2:50:40<3:24:49, 3.06s/it]
44%|██████████████████████████████████████████▊ | 3121/7135 [2:50:43<3:28:16, 3.11s/it]
44%|██████████████████████████████████████████▉ | 3122/7135 [2:50:47<3:32:06, 3.17s/it]
44%|██████████████████████████████████████████▉ | 3123/7135 [2:50:50<3:43:37, 3.34s/it]
44%|██████████████████████████████████████████▉ | 3124/7135 [2:50:54<3:43:12, 3.34s/it]
44%|██████████████████████████████████████████▉ | 3125/7135 [2:50:57<3:48:16, 3.42s/it]
44%|██████████████████████████████████████████▉ | 3126/7135 [2:51:00<3:38:40, 3.27s/it]
44%|██████████████████████████████████████████▉ | 3127/7135 [2:51:03<3:29:19, 3.13s/it]
44%|██████████████████████████████████████████▉ | 3128/7135 [2:51:07<3:47:18, 3.40s/it]
44%|██████████████████████████████████████████▉ | 3129/7135 [2:51:10<3:40:37, 3.30s/it]
44%|██████████████████████████████████████████▉ | 3130/7135 [2:51:14<3:45:09, 3.37s/it]
{'loss': 0.7494, 'grad_norm': 3.5625, 'learning_rate': 3.04105362009328e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 410.19, 'epoch': 4.38}
44%|██████████████████████████████████████████▉ | 3130/7135 [2:51:14<3:45:09, 3.37s/it]
44%|███████████████████████████████████████████ | 3131/7135 [2:51:17<3:37:42, 3.26s/it]
44%|███████████████████████████████████████████ | 3132/7135 [2:51:20<3:36:28, 3.24s/it]
44%|███████████████████████████████████████████ | 3133/7135 [2:51:23<3:24:50, 3.07s/it]
44%|███████████████████████████████████████████ | 3134/7135 [2:51:26<3:24:18, 3.06s/it]
44%|███████████████████████████████████████████ | 3135/7135 [2:51:29<3:24:57, 3.07s/it]
44%|███████████████████████████████████████████ | 3136/7135 [2:51:32<3:23:00, 3.05s/it]
44%|███████████████████████████████████████████ | 3137/7135 [2:51:35<3:33:52, 3.21s/it]
44%|███████████████████████████████████████████ | 3138/7135 [2:51:38<3:29:26, 3.14s/it]
44%|███████████████████████████████████████████ | 3139/7135 [2:51:42<3:44:59, 3.38s/it]
44%|███████████████████████████████████████████▏ | 3140/7135 [2:51:45<3:36:58, 3.26s/it]
{'loss': 0.7183, 'grad_norm': 6.21875, 'learning_rate': 3.030148698494274e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.05, 'epoch': 4.4}
44%|███████████████████████████████████████████▏ | 3140/7135 [2:51:45<3:36:58, 3.26s/it]
44%|███████████████████████████████████████████▏ | 3141/7135 [2:51:48<3:35:05, 3.23s/it]
44%|███████████████████████████████████████████▏ | 3142/7135 [2:51:52<3:42:06, 3.34s/it]
44%|███████████████████████████████████████████▏ | 3143/7135 [2:51:55<3:42:46, 3.35s/it]
44%|███████████████████████████████████████████▏ | 3144/7135 [2:51:59<3:43:57, 3.37s/it]
44%|███████████████████████████████████████████▏ | 3145/7135 [2:52:02<3:46:34, 3.41s/it]
44%|███████████████████████████████████████████▏ | 3146/7135 [2:52:06<3:44:37, 3.38s/it]
44%|███████████████████████████████████████████▏ | 3147/7135 [2:52:08<3:34:26, 3.23s/it]
44%|███████████████████████████████████████████▏ | 3148/7135 [2:52:11<3:28:15, 3.13s/it]
44%|███████████████████████████████████████████▎ | 3149/7135 [2:52:14<3:22:04, 3.04s/it]
44%|███████████████████████████████████████████▎ | 3150/7135 [2:52:18<3:28:21, 3.14s/it]
{'loss': 0.6325, 'grad_norm': 4.84375, 'learning_rate': 3.0192332046186017e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 354.04, 'epoch': 4.41}
44%|███████████████████████████████████████████▎ | 3150/7135 [2:52:18<3:28:21, 3.14s/it]
44%|███████████████████████████████████████████▎ | 3151/7135 [2:52:21<3:31:50, 3.19s/it]
44%|███████████████████████████████████████████▎ | 3152/7135 [2:52:24<3:27:14, 3.12s/it]
44%|███████████████████████████████████████████▎ | 3153/7135 [2:52:27<3:29:26, 3.16s/it]
44%|███████████████████████████████████████████▎ | 3154/7135 [2:52:30<3:20:32, 3.02s/it]
44%|███████████████████████████████████████████▎ | 3155/7135 [2:52:33<3:16:53, 2.97s/it]
44%|███████████████████████████████████████████▎ | 3156/7135 [2:52:36<3:27:21, 3.13s/it]
44%|███████████████████████████████████████████▎ | 3157/7135 [2:52:40<3:34:33, 3.24s/it]
44%|███████████████████████████████████████████▍ | 3158/7135 [2:52:42<3:22:09, 3.05s/it]
44%|███████████████████████████████████████████▍ | 3159/7135 [2:52:46<3:28:55, 3.15s/it]
44%|███████████████████████████████████████████▍ | 3160/7135 [2:52:49<3:36:13, 3.26s/it]
{'loss': 0.6088, 'grad_norm': 4.90625, 'learning_rate': 3.008307356144099e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 344.29, 'epoch': 4.43}
44%|███████████████████████████████████████████▍ | 3160/7135 [2:52:49<3:36:13, 3.26s/it]
44%|███████████████████████████████████████████▍ | 3161/7135 [2:52:53<3:38:18, 3.30s/it]
44%|███████████████████████████████████████████▍ | 3162/7135 [2:52:55<3:23:50, 3.08s/it]
44%|███████████████████████████████████████████▍ | 3163/7135 [2:52:58<3:21:02, 3.04s/it]
44%|███████████████████████████████████████████▍ | 3164/7135 [2:53:01<3:29:27, 3.16s/it]
44%|███████████████████████████████████████████▍ | 3165/7135 [2:53:05<3:37:20, 3.28s/it]
44%|███████████████████████████████████████████▍ | 3166/7135 [2:53:08<3:31:41, 3.20s/it]
44%|███████████████████████████████████████████▍ | 3167/7135 [2:53:11<3:33:42, 3.23s/it]
44%|███████████████████████████████████████████▌ | 3168/7135 [2:53:15<3:37:35, 3.29s/it]
44%|███████████████████████████████████████████▌ | 3169/7135 [2:53:18<3:40:27, 3.34s/it]
44%|███████████████████████████████████████████▌ | 3170/7135 [2:53:21<3:34:46, 3.25s/it]
{'loss': 0.7166, 'grad_norm': 4.9375, 'learning_rate': 2.997371370955093e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.65, 'epoch': 4.44}
44%|███████████████████████████████████████████▌ | 3170/7135 [2:53:21<3:34:46, 3.25s/it]
44%|███████████████████████████████████████████▌ | 3171/7135 [2:53:24<3:27:06, 3.13s/it]
44%|███████████████████████████████████████████▌ | 3172/7135 [2:53:27<3:20:33, 3.04s/it]
44%|███████████████████████████████████████████▌ | 3173/7135 [2:53:30<3:11:46, 2.90s/it]
44%|███████████████████████████████████████████▌ | 3174/7135 [2:53:32<3:08:28, 2.86s/it]
44%|███████████████████████████████████████████▌ | 3175/7135 [2:53:35<3:12:29, 2.92s/it]
45%|███████████████████████████████████████████▌ | 3176/7135 [2:53:39<3:21:26, 3.05s/it]
45%|███████████████████████████████████████████▋ | 3177/7135 [2:53:42<3:25:32, 3.12s/it]
45%|███████████████████████████████████████████▋ | 3178/7135 [2:53:45<3:22:56, 3.08s/it]
45%|███████████████████████████████████████████▋ | 3179/7135 [2:53:48<3:23:54, 3.09s/it]
45%|███████████████████████████████████████████▋ | 3180/7135 [2:53:51<3:22:34, 3.07s/it]
{'loss': 0.6826, 'grad_norm': 5.96875, 'learning_rate': 2.9864254671380592e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.21, 'epoch': 4.45}
45%|███████████████████████████████████████████▋ | 3180/7135 [2:53:51<3:22:34, 3.07s/it]
45%|███████████████████████████████████████████▋ | 3181/7135 [2:53:54<3:21:10, 3.05s/it]
45%|███████████████████████████████████████████▋ | 3182/7135 [2:53:58<3:40:28, 3.35s/it]
45%|███████████████████████████████████████████▋ | 3183/7135 [2:54:01<3:33:52, 3.25s/it]
45%|███████████████████████████████████████████▋ | 3184/7135 [2:54:05<3:37:10, 3.30s/it]
45%|███████████████████████████████████████████▋ | 3185/7135 [2:54:08<3:34:23, 3.26s/it]
45%|███████████████████████████████████████████▊ | 3186/7135 [2:54:11<3:35:36, 3.28s/it]
45%|███████████████████████████████████████████▊ | 3187/7135 [2:54:15<3:40:47, 3.36s/it]
45%|███████████████████████████████████████████▊ | 3188/7135 [2:54:18<3:37:39, 3.31s/it]
45%|███████████████████████████████████████████▊ | 3189/7135 [2:54:21<3:41:24, 3.37s/it]
45%|███████████████████████████████████████████▊ | 3190/7135 [2:54:24<3:33:44, 3.25s/it]
{'loss': 0.7232, 'grad_norm': 5.125, 'learning_rate': 2.975469862977272e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.89, 'epoch': 4.47}
45%|███████████████████████████████████████████▊ | 3190/7135 [2:54:24<3:33:44, 3.25s/it]
45%|███████████████████████████████████████████▊ | 3191/7135 [2:54:27<3:26:10, 3.14s/it]
45%|███████████████████████████████████████████▊ | 3192/7135 [2:54:30<3:17:19, 3.00s/it]
45%|███████████████████████████████████████████▊ | 3193/7135 [2:54:33<3:24:44, 3.12s/it]
45%|███████████████████████████████████████████▊ | 3194/7135 [2:54:36<3:23:21, 3.10s/it]
45%|███████████████████████████████████████████▉ | 3195/7135 [2:54:40<3:35:05, 3.28s/it]
45%|███████████████████████████████████████████▉ | 3196/7135 [2:54:44<3:52:27, 3.54s/it]
45%|███████████████████████████████████████████▉ | 3197/7135 [2:54:48<3:51:01, 3.52s/it]
45%|███████████████████████████████████████████▉ | 3198/7135 [2:54:50<3:36:39, 3.30s/it]
45%|███████████████████████████████████████████▉ | 3199/7135 [2:54:54<3:39:25, 3.34s/it]
45%|███████████████████████████████████████████▉ | 3200/7135 [2:54:57<3:38:34, 3.33s/it]
{'loss': 0.7364, 'grad_norm': 7.03125, 'learning_rate': 2.96450477695045e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 429.62, 'epoch': 4.48}
45%|███████████████████████████████████████████▉ | 3200/7135 [2:54:57<3:38:34, 3.33s/it]
45%|███████████████████████████████████████████▉ | 3201/7135 [2:55:00<3:33:17, 3.25s/it]
45%|███████████████████████████████████████████▉ | 3202/7135 [2:55:03<3:32:23, 3.24s/it]
45%|███████████████████████████████████████████▉ | 3203/7135 [2:55:07<3:39:26, 3.35s/it]
45%|████████████████████████████████████████████ | 3204/7135 [2:55:10<3:40:43, 3.37s/it]
45%|████████████████████████████████████████████ | 3205/7135 [2:55:14<3:37:16, 3.32s/it]
45%|████████████████████████████████████████████ | 3206/7135 [2:55:17<3:35:48, 3.30s/it]
45%|████████████████████████████████████████████ | 3207/7135 [2:55:20<3:29:13, 3.20s/it]
45%|████████████████████████████████████████████ | 3208/7135 [2:55:23<3:24:36, 3.13s/it]
45%|████████████████████████████████████████████ | 3209/7135 [2:55:26<3:19:21, 3.05s/it]
45%|████████████████████████████████████████████ | 3210/7135 [2:55:29<3:19:15, 3.05s/it]
{'loss': 0.7746, 'grad_norm': 5.46875, 'learning_rate': 2.9535304277243992e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.71, 'epoch': 4.5}
45%|████████████████████████████████████████████ | 3210/7135 [2:55:29<3:19:15, 3.05s/it]
45%|████████████████████████████████████████████ | 3211/7135 [2:55:32<3:15:51, 2.99s/it]
45%|████████████████████████████████████████████ | 3212/7135 [2:55:34<3:12:41, 2.95s/it]
45%|████████████████████████████████████████████▏ | 3213/7135 [2:55:37<3:13:26, 2.96s/it]
45%|████████████████████████████████████████████▏ | 3214/7135 [2:55:40<3:14:18, 2.97s/it]
45%|████████████████████████████████████████████▏ | 3215/7135 [2:55:43<3:14:42, 2.98s/it]
45%|████████████████████████████████████████████▏ | 3216/7135 [2:55:46<3:06:15, 2.85s/it]
45%|████████████████████████████████████████████▏ | 3217/7135 [2:55:49<3:08:35, 2.89s/it]
45%|████████████████████████████████████████████▏ | 3218/7135 [2:55:52<3:11:26, 2.93s/it]
45%|████████████████████████████████████████████▏ | 3219/7135 [2:55:55<3:18:29, 3.04s/it]
45%|████████████████████████████████████████████▏ | 3220/7135 [2:55:59<3:23:17, 3.12s/it]
{'loss': 0.7076, 'grad_norm': 5.875, 'learning_rate': 2.9425470341506545e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 314.71, 'epoch': 4.51}
45%|████████████████████████████████████████████▏ | 3220/7135 [2:55:59<3:23:17, 3.12s/it]
45%|████████████████████████████████████████████▏ | 3221/7135 [2:56:02<3:23:41, 3.12s/it]
45%|████████████████████████████████████████████▎ | 3222/7135 [2:56:05<3:30:09, 3.22s/it]
45%|████████████████████████████████████████████▎ | 3223/7135 [2:56:08<3:31:47, 3.25s/it]
45%|████████████████████████████████████████████▎ | 3224/7135 [2:56:11<3:25:24, 3.15s/it]
45%|████████████████████████████████████████████▎ | 3225/7135 [2:56:15<3:25:42, 3.16s/it]
45%|████████████████████████████████████████████▎ | 3226/7135 [2:56:18<3:31:12, 3.24s/it]
45%|████████████████████████████████████████████▎ | 3227/7135 [2:56:21<3:34:52, 3.30s/it]
45%|████████████████████████████████████████████▎ | 3228/7135 [2:56:25<3:34:00, 3.29s/it]
45%|████████████████████████████████████████████▎ | 3229/7135 [2:56:28<3:32:24, 3.26s/it]
45%|████████████████████████████████████████████▎ | 3230/7135 [2:56:32<3:41:22, 3.40s/it]
{'loss': 0.6724, 'grad_norm': 6.6875, 'learning_rate': 2.931554815261115e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 300.68, 'epoch': 4.52}
45%|████████████████████████████████████████████▎ | 3230/7135 [2:56:32<3:41:22, 3.40s/it]
45%|████████████████████████████████████████████▍ | 3231/7135 [2:56:35<3:32:42, 3.27s/it]
45%|████████████████████████████████████████████▍ | 3232/7135 [2:56:38<3:26:56, 3.18s/it]
45%|████████████████████████████████████████████▍ | 3233/7135 [2:56:41<3:22:27, 3.11s/it]
45%|████████████████████████████████████████████▍ | 3234/7135 [2:56:44<3:22:14, 3.11s/it]
45%|████████████████████████████████████████████▍ | 3235/7135 [2:56:47<3:18:36, 3.06s/it]
45%|████████████████████████████████████████████▍ | 3236/7135 [2:56:50<3:21:58, 3.11s/it]
45%|████████████████████████████████████████████▍ | 3237/7135 [2:56:53<3:25:31, 3.16s/it]
45%|████████████████████████████████████████████▍ | 3238/7135 [2:56:57<3:34:06, 3.30s/it]
45%|████████████████████████████████████████████▍ | 3239/7135 [2:57:00<3:25:38, 3.17s/it]
45%|████████████████████████████████████████████▌ | 3240/7135 [2:57:03<3:26:11, 3.18s/it]
{'loss': 0.7356, 'grad_norm': 4.4375, 'learning_rate': 2.9205539902636727e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 419.71, 'epoch': 4.54}
45%|████████████████████████████████████████████▌ | 3240/7135 [2:57:03<3:26:11, 3.18s/it]
45%|████████████████████████████████████████████▌ | 3241/7135 [2:57:06<3:28:46, 3.22s/it]
45%|████████████████████████████████████████████▌ | 3242/7135 [2:57:09<3:23:07, 3.13s/it]
45%|████████████████████████████████████████████▌ | 3243/7135 [2:57:12<3:24:39, 3.16s/it]
45%|████████████████████████████████████████████▌ | 3244/7135 [2:57:16<3:31:19, 3.26s/it]
45%|████████████████████████████████████████████▌ | 3245/7135 [2:57:19<3:29:20, 3.23s/it]
45%|████████████████████████████████████████████▌ | 3246/7135 [2:57:22<3:26:48, 3.19s/it]
46%|████████████████████████████████████████████▌ | 3247/7135 [2:57:26<3:37:32, 3.36s/it]
46%|████████████████████████████████████████████▌ | 3248/7135 [2:57:29<3:40:30, 3.40s/it]
46%|████████████████████████████████████████████▋ | 3249/7135 [2:57:33<3:38:02, 3.37s/it]
46%|████████████████████████████████████████████▋ | 3250/7135 [2:57:35<3:23:56, 3.15s/it]
{'loss': 0.8385, 'grad_norm': 4.875, 'learning_rate': 2.9095447785378446e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.03, 'epoch': 4.55}
46%|████████████████████████████████████████████▋ | 3250/7135 [2:57:35<3:23:56, 3.15s/it]
46%|████████████████████████████████████████████▋ | 3251/7135 [2:57:38<3:21:42, 3.12s/it]
46%|████████████████████████████████████████████▋ | 3252/7135 [2:57:41<3:22:24, 3.13s/it]
46%|████████████████████████████████████████████▋ | 3253/7135 [2:57:44<3:20:00, 3.09s/it]
46%|████████████████████████████████████████████▋ | 3254/7135 [2:57:48<3:23:44, 3.15s/it]
46%|████████████████████████████████████████████▋ | 3255/7135 [2:57:51<3:21:01, 3.11s/it]
46%|████████████████████████████████████████████▋ | 3256/7135 [2:57:53<3:15:45, 3.03s/it]
46%|████████████████████████████████████████████▋ | 3257/7135 [2:57:56<3:11:03, 2.96s/it]
46%|████████████████████████████████████████████▋ | 3258/7135 [2:58:00<3:24:01, 3.16s/it]
46%|████████████████████████████████████████████▊ | 3259/7135 [2:58:03<3:21:45, 3.12s/it]
46%|████████████████████████████████████████████▊ | 3260/7135 [2:58:06<3:27:56, 3.22s/it]
{'loss': 0.8351, 'grad_norm': 3.796875, 'learning_rate': 2.898527399630397e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 346.0, 'epoch': 4.57}
46%|████████████████████████████████████████████▊ | 3260/7135 [2:58:06<3:27:56, 3.22s/it]
46%|████████████████████████████████████████████▊ | 3261/7135 [2:58:10<3:31:48, 3.28s/it]
46%|████████████████████████████████████████████▊ | 3262/7135 [2:58:13<3:31:09, 3.27s/it]
46%|████████████████████████████████████████████▊ | 3263/7135 [2:58:16<3:30:13, 3.26s/it]
46%|████████████████████████████████████████████▊ | 3264/7135 [2:58:20<3:35:13, 3.34s/it]
46%|████████████████████████████████████████████▊ | 3265/7135 [2:58:23<3:28:13, 3.23s/it]
46%|████████████████████████████████████████████▊ | 3266/7135 [2:58:26<3:18:36, 3.08s/it]
46%|████████████████████████████████████████████▊ | 3267/7135 [2:58:29<3:20:30, 3.11s/it]
46%|████████████████████████████████████████████▉ | 3268/7135 [2:58:32<3:19:48, 3.10s/it]
46%|████████████████████████████████████████████▉ | 3269/7135 [2:58:36<3:32:42, 3.30s/it]
46%|████████████████████████████████████████████▉ | 3270/7135 [2:58:38<3:25:20, 3.19s/it]
{'loss': 0.7697, 'grad_norm': 4.59375, 'learning_rate': 2.8875020732509675e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.76, 'epoch': 4.58}
46%|████████████████████████████████████████████▉ | 3270/7135 [2:58:39<3:25:20, 3.19s/it]
46%|████████████████████████████████████████████▉ | 3271/7135 [2:58:41<3:17:06, 3.06s/it]
46%|████████████████████████████████████████████▉ | 3272/7135 [2:58:44<3:11:00, 2.97s/it]
46%|████████████████████████████████████████████▉ | 3273/7135 [2:58:47<3:12:31, 2.99s/it]
46%|████████████████████████████████████████████▉ | 3274/7135 [2:58:50<3:13:17, 3.00s/it]
46%|████████████████████████████████████████████▉ | 3275/7135 [2:58:54<3:22:12, 3.14s/it]
46%|████████████████████████████████████████████▉ | 3276/7135 [2:58:57<3:21:06, 3.13s/it]
46%|█████████████████████████████████████████████ | 3277/7135 [2:59:00<3:21:43, 3.14s/it]
46%|█████████████████████████████████████████████ | 3278/7135 [2:59:03<3:17:20, 3.07s/it]
46%|█████████████████████████████████████████████ | 3279/7135 [2:59:06<3:17:32, 3.07s/it]
46%|█████████████████████████████████████████████ | 3280/7135 [2:59:09<3:20:21, 3.12s/it]
{'loss': 0.7257, 'grad_norm': 4.875, 'learning_rate': 2.8764690192676796e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 358.83, 'epoch': 4.59}
46%|█████████████████████████████████████████████ | 3280/7135 [2:59:09<3:20:21, 3.12s/it]
46%|█████████████████████████████████████████████ | 3281/7135 [2:59:12<3:25:58, 3.21s/it]
46%|█████████████████████████████████████████████ | 3282/7135 [2:59:15<3:21:04, 3.13s/it]
46%|█████████████████████████████████████████████ | 3283/7135 [2:59:19<3:24:12, 3.18s/it]
46%|█████████████████████████████████████████████ | 3284/7135 [2:59:21<3:16:01, 3.05s/it]
46%|█████████████████████████████████████████████ | 3285/7135 [2:59:25<3:16:28, 3.06s/it]
46%|█████████████████████████████████████████████▏ | 3286/7135 [2:59:28<3:20:15, 3.12s/it]
46%|█████████████████████████████████████████████▏ | 3287/7135 [2:59:31<3:25:08, 3.20s/it]
46%|█████████████████████████████████████████████▏ | 3288/7135 [2:59:35<3:29:28, 3.27s/it]
46%|█████████████████████████████████████████████▏ | 3289/7135 [2:59:38<3:26:10, 3.22s/it]
46%|█████████████████████████████████████████████▏ | 3290/7135 [2:59:41<3:22:17, 3.16s/it]
{'loss': 0.8332, 'grad_norm': 5.3125, 'learning_rate': 2.865428457702767e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 440.19, 'epoch': 4.61}
46%|█████████████████████████████████████████████▏ | 3290/7135 [2:59:41<3:22:17, 3.16s/it]
46%|█████████████████████████████████████████████▏ | 3291/7135 [2:59:44<3:25:06, 3.20s/it]
46%|█████████████████████████████████████████████▏ | 3292/7135 [2:59:47<3:20:59, 3.14s/it]
46%|█████████████████████████████████████████████▏ | 3293/7135 [2:59:50<3:12:06, 3.00s/it]
46%|█████████████████████████████████████████████▏ | 3294/7135 [2:59:53<3:09:48, 2.97s/it]
46%|█████████████████████████████████████████████▎ | 3295/7135 [2:59:55<3:07:36, 2.93s/it]
46%|█████████████████████████████████████████████▎ | 3296/7135 [2:59:58<3:06:46, 2.92s/it]
46%|█████████████████████████████████████████████▎ | 3297/7135 [3:00:01<3:06:27, 2.91s/it]
46%|█████████████████████████████████████████████▎ | 3298/7135 [3:00:04<3:10:46, 2.98s/it]
46%|█████████████████████████████████████████████▎ | 3299/7135 [3:00:08<3:23:25, 3.18s/it]
46%|█████████████████████████████████████████████▎ | 3300/7135 [3:00:11<3:28:45, 3.27s/it]
{'loss': 0.6761, 'grad_norm': 5.28125, 'learning_rate': 2.854380608728175e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 343.09, 'epoch': 4.62}
46%|█████████████████████████████████████████████▎ | 3300/7135 [3:00:11<3:28:45, 3.27s/it]
46%|█████████████████████████████████████████████▎ | 3301/7135 [3:00:15<3:28:36, 3.26s/it]
46%|█████████████████████████████████████████████▎ | 3302/7135 [3:00:18<3:28:31, 3.26s/it]
46%|█████████████████████████████████████████████▎ | 3303/7135 [3:00:21<3:22:12, 3.17s/it]
46%|█████████████████████████████████████████████▍ | 3304/7135 [3:00:24<3:20:39, 3.14s/it]
46%|█████████████████████████████████████████████▍ | 3305/7135 [3:00:28<3:29:01, 3.27s/it]
46%|█████████████████████████████████████████████▍ | 3306/7135 [3:00:30<3:20:40, 3.14s/it]
46%|█████████████████████████████████████████████▍ | 3307/7135 [3:00:34<3:20:26, 3.14s/it]
46%|█████████████████████████████████████████████▍ | 3308/7135 [3:00:37<3:32:10, 3.33s/it]
46%|█████████████████████████████████████████████▍ | 3309/7135 [3:00:42<3:51:26, 3.63s/it]
46%|█████████████████████████████████████████████▍ | 3310/7135 [3:00:44<3:33:42, 3.35s/it]
{'loss': 0.7146, 'grad_norm': 5.90625, 'learning_rate': 2.8433256926611774e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 437.56, 'epoch': 4.64}
46%|█████████████████████████████████████████████▍ | 3310/7135 [3:00:44<3:33:42, 3.35s/it]
46%|█████████████████████████████████████████████▍ | 3311/7135 [3:00:47<3:27:10, 3.25s/it]
46%|█████████████████████████████████████████████▍ | 3312/7135 [3:00:51<3:25:58, 3.23s/it]
46%|█████████████████████████████████████████████▌ | 3313/7135 [3:00:54<3:30:55, 3.31s/it]
46%|█████████████████████████████████████████████▌ | 3314/7135 [3:00:57<3:21:19, 3.16s/it]
46%|█████████████████████████████████████████████▌ | 3315/7135 [3:01:00<3:23:36, 3.20s/it]
46%|█████████████████████████████████████████████▌ | 3316/7135 [3:01:04<3:28:12, 3.27s/it]
46%|█████████████████████████████████████████████▌ | 3317/7135 [3:01:07<3:35:03, 3.38s/it]
47%|█████████████████████████████████████████████▌ | 3318/7135 [3:01:11<3:42:52, 3.50s/it]
47%|█████████████████████████████████████████████▌ | 3319/7135 [3:01:15<3:49:28, 3.61s/it]
47%|█████████████████████████████████████████████▌ | 3320/7135 [3:01:18<3:36:04, 3.40s/it]
{'loss': 0.7424, 'grad_norm': 4.84375, 'learning_rate': 2.8322639299599826e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 470.04, 'epoch': 4.65}
47%|█████████████████████████████████████████████▌ | 3320/7135 [3:01:18<3:36:04, 3.40s/it]
47%|█████████████████████████████████████████████▌ | 3321/7135 [3:01:21<3:39:43, 3.46s/it]
47%|█████████████████████████████████████████████▋ | 3322/7135 [3:01:25<3:35:40, 3.39s/it]
47%|█████████████████████████████████████████████▋ | 3323/7135 [3:01:27<3:22:04, 3.18s/it]
47%|█████████████████████████████████████████████▋ | 3324/7135 [3:01:30<3:14:27, 3.06s/it]
47%|█████████████████████████████████████████████▋ | 3325/7135 [3:01:33<3:10:43, 3.00s/it]
47%|█████████████████████████████████████████████▋ | 3326/7135 [3:01:36<3:15:17, 3.08s/it]
47%|█████████████████████████████████████████████▋ | 3327/7135 [3:01:39<3:11:47, 3.02s/it]
47%|█████████████████████████████████████████████▋ | 3328/7135 [3:01:42<3:12:25, 3.03s/it]
47%|█████████████████████████████████████████████▋ | 3329/7135 [3:01:45<3:17:29, 3.11s/it]
47%|█████████████████████████████████████████████▋ | 3330/7135 [3:01:49<3:19:17, 3.14s/it]
{'loss': 0.6841, 'grad_norm': 4.5625, 'learning_rate': 2.8211955412193307e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.79, 'epoch': 4.66}
47%|█████████████████████████████████████████████▋ | 3330/7135 [3:01:49<3:19:17, 3.14s/it]
47%|█████████████████████████████████████████████▊ | 3331/7135 [3:01:52<3:17:42, 3.12s/it]
47%|█████████████████████████████████████████████▊ | 3332/7135 [3:01:54<3:09:48, 2.99s/it]
47%|█████████████████████████████████████████████▊ | 3333/7135 [3:01:58<3:17:02, 3.11s/it]
47%|█████████████████████████████████████████████▊ | 3334/7135 [3:02:01<3:19:55, 3.16s/it]
47%|█████████████████████████████████████████████▊ | 3335/7135 [3:02:04<3:22:25, 3.20s/it]
47%|█████████████████████████████████████████████▊ | 3336/7135 [3:02:08<3:22:03, 3.19s/it]
47%|█████████████████████████████████████████████▊ | 3337/7135 [3:02:11<3:26:55, 3.27s/it]
47%|█████████████████████████████████████████████▊ | 3338/7135 [3:02:14<3:22:17, 3.20s/it]
47%|█████████████████████████████████████████████▊ | 3339/7135 [3:02:17<3:17:43, 3.13s/it]
47%|█████████████████████████████████████████████▉ | 3340/7135 [3:02:20<3:12:43, 3.05s/it]
{'loss': 0.6508, 'grad_norm': 4.8125, 'learning_rate': 2.810120747166103e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.71, 'epoch': 4.68}
47%|█████████████████████████████████████████████▉ | 3340/7135 [3:02:20<3:12:43, 3.05s/it]
47%|█████████████████████████████████████████████▉ | 3341/7135 [3:02:23<3:13:12, 3.06s/it]
47%|█████████████████████████████████████████████▉ | 3342/7135 [3:02:26<3:20:49, 3.18s/it]
47%|█████████████████████████████████████████████▉ | 3343/7135 [3:02:30<3:25:20, 3.25s/it]
47%|█████████████████████████████████████████████▉ | 3344/7135 [3:02:33<3:22:14, 3.20s/it]
47%|█████████████████████████████████████████████▉ | 3345/7135 [3:02:36<3:21:26, 3.19s/it]
47%|█████████████████████████████████████████████▉ | 3346/7135 [3:02:39<3:23:41, 3.23s/it]
47%|█████████████████████████████████████████████▉ | 3347/7135 [3:02:43<3:35:40, 3.42s/it]
47%|█████████████████████████████████████████████▉ | 3348/7135 [3:02:46<3:28:23, 3.30s/it]
47%|█████████████████████████████████████████████▉ | 3349/7135 [3:02:49<3:22:44, 3.21s/it]
47%|██████████████████████████████████████████████ | 3350/7135 [3:02:52<3:22:02, 3.20s/it]
{'loss': 0.7942, 'grad_norm': 5.0625, 'learning_rate': 2.7990397686549137e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 374.72, 'epoch': 4.69}
47%|██████████████████████████████████████████████ | 3350/7135 [3:02:52<3:22:02, 3.20s/it]
47%|██████████████████████████████████████████████ | 3351/7135 [3:02:56<3:24:53, 3.25s/it]
47%|██████████████████████████████████████████████ | 3352/7135 [3:02:59<3:24:47, 3.25s/it]
47%|██████████████████████████████████████████████ | 3353/7135 [3:03:03<3:31:02, 3.35s/it]
47%|██████████████████████████████████████████████ | 3354/7135 [3:03:07<3:55:26, 3.74s/it]
47%|██████████████████████████████████████████████ | 3355/7135 [3:03:10<3:45:54, 3.59s/it]
47%|██████████████████████████████████████████████ | 3356/7135 [3:03:14<3:34:55, 3.41s/it]
47%|██████████████████████████████████████████████ | 3357/7135 [3:03:17<3:34:01, 3.40s/it]
47%|██████████████████████████████████████████████ | 3358/7135 [3:03:20<3:32:02, 3.37s/it]
47%|██████████████████████████████████████████████▏ | 3359/7135 [3:03:23<3:28:25, 3.31s/it]
47%|██████████████████████████████████████████████▏ | 3360/7135 [3:03:26<3:19:37, 3.17s/it]
{'loss': 0.6974, 'grad_norm': 4.0625, 'learning_rate': 2.78795282666371e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.15, 'epoch': 4.71}
47%|██████████████████████████████████████████████▏ | 3360/7135 [3:03:26<3:19:37, 3.17s/it]
47%|██████████████████████████████████████████████▏ | 3361/7135 [3:03:29<3:14:11, 3.09s/it]
47%|██████████████████████████████████████████████▏ | 3362/7135 [3:03:32<3:12:16, 3.06s/it]
47%|██████████████████████████████████████████████▏ | 3363/7135 [3:03:35<3:13:30, 3.08s/it]
47%|██████████████████████████████████████████████▏ | 3364/7135 [3:03:38<3:12:41, 3.07s/it]
47%|██████████████████████████████████████████████▏ | 3365/7135 [3:03:42<3:22:58, 3.23s/it]
47%|██████████████████████████████████████████████▏ | 3366/7135 [3:03:45<3:22:46, 3.23s/it]
47%|██████████████████████████████████████████████▏ | 3367/7135 [3:03:48<3:26:19, 3.29s/it]
47%|██████████████████████████████████████████████▎ | 3368/7135 [3:03:52<3:28:14, 3.32s/it]
47%|██████████████████████████████████████████████▎ | 3369/7135 [3:03:55<3:29:29, 3.34s/it]
47%|██████████████████████████████████████████████▎ | 3370/7135 [3:03:58<3:19:43, 3.18s/it]
{'loss': 0.8723, 'grad_norm': 6.0625, 'learning_rate': 2.7768601422893614e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 465.21, 'epoch': 4.72}
47%|██████████████████████████████████████████████▎ | 3370/7135 [3:03:58<3:19:43, 3.18s/it]
47%|██████████████████████████████████████████████▎ | 3371/7135 [3:04:01<3:17:24, 3.15s/it]
47%|██████████████████████████████████████████████▎ | 3372/7135 [3:04:05<3:24:15, 3.26s/it]
47%|██████████████████████████████████████████████▎ | 3373/7135 [3:04:08<3:22:31, 3.23s/it]
47%|██████████████████████████████████████████████▎ | 3374/7135 [3:04:11<3:15:43, 3.12s/it]
47%|██████████████████████████████████████████████▎ | 3375/7135 [3:04:14<3:18:35, 3.17s/it]
47%|██████████████████████████████████████████████▎ | 3376/7135 [3:04:17<3:17:23, 3.15s/it]
47%|██████████████████████████████████████████████▍ | 3377/7135 [3:04:20<3:16:15, 3.13s/it]
47%|██████████████████████████████████████████████▍ | 3378/7135 [3:04:23<3:15:05, 3.12s/it]
47%|██████████████████████████████████████████████▍ | 3379/7135 [3:04:26<3:14:51, 3.11s/it]
47%|██████████████████████████████████████████████▍ | 3380/7135 [3:04:31<3:49:16, 3.66s/it]
{'loss': 0.8186, 'grad_norm': 2.421875, 'learning_rate': 2.7657619367432547e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.78, 'epoch': 4.73}
47%|██████████████████████████████████████████████▍ | 3380/7135 [3:04:31<3:49:16, 3.66s/it]
47%|██████████████████████████████████████████████▍ | 3381/7135 [3:04:34<3:38:03, 3.49s/it]
47%|██████████████████████████████████████████████▍ | 3382/7135 [3:04:38<3:45:05, 3.60s/it]
47%|██████████████████████████████████████████████▍ | 3383/7135 [3:04:41<3:38:37, 3.50s/it]
47%|██████████████████████████████████████████████▍ | 3384/7135 [3:04:45<3:31:32, 3.38s/it]
47%|██████████████████████████████████████████████▍ | 3385/7135 [3:04:48<3:23:06, 3.25s/it]
47%|██████████████████████████████████████████████▌ | 3386/7135 [3:04:51<3:22:21, 3.24s/it]
47%|██████████████████████████████████████████████▌ | 3387/7135 [3:04:54<3:28:49, 3.34s/it]
47%|██████████████████████████████████████████████▌ | 3388/7135 [3:04:58<3:31:54, 3.39s/it]
47%|██████████████████████████████████████████████▌ | 3389/7135 [3:05:01<3:29:35, 3.36s/it]
48%|██████████████████████████████████████████████▌ | 3390/7135 [3:05:05<3:30:26, 3.37s/it]
{'loss': 0.7658, 'grad_norm': 6.03125, 'learning_rate': 2.7546584313468775e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 324.82, 'epoch': 4.75}
48%|██████████████████████████████████████████████▌ | 3390/7135 [3:05:05<3:30:26, 3.37s/it]
48%|██████████████████████████████████████████████▌ | 3391/7135 [3:05:07<3:18:56, 3.19s/it]
48%|██████████████████████████████████████████████▌ | 3392/7135 [3:05:11<3:20:16, 3.21s/it]
48%|██████████████████████████████████████████████▌ | 3393/7135 [3:05:13<3:12:43, 3.09s/it]
48%|██████████████████████████████████████████████▌ | 3394/7135 [3:05:17<3:31:09, 3.39s/it]
48%|██████████████████████████████████████████████▋ | 3395/7135 [3:05:20<3:22:26, 3.25s/it]
48%|██████████████████████████████████████████████▋ | 3396/7135 [3:05:24<3:35:59, 3.47s/it]
48%|██████████████████████████████████████████████▋ | 3397/7135 [3:05:28<3:35:23, 3.46s/it]
48%|██████████████████████████████████████████████▋ | 3398/7135 [3:05:31<3:30:40, 3.38s/it]
48%|██████████████████████████████████████████████▋ | 3399/7135 [3:05:34<3:28:39, 3.35s/it]
48%|██████████████████████████████████████████████▋ | 3400/7135 [3:05:37<3:20:42, 3.22s/it]
{'loss': 0.799, 'grad_norm': 5.5, 'learning_rate': 2.7435498475274107e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.53, 'epoch': 4.76}
48%|██████████████████████████████████████████████▋ | 3400/7135 [3:05:37<3:20:42, 3.22s/it]
48%|██████████████████████████████████████████████▋ | 3401/7135 [3:05:40<3:17:24, 3.17s/it]
48%|██████████████████████████████████████████████▋ | 3402/7135 [3:05:43<3:13:39, 3.11s/it]
48%|██████████████████████████████████████████████▋ | 3403/7135 [3:05:46<3:12:50, 3.10s/it]
48%|██████████████████████████████████████████████▊ | 3404/7135 [3:05:49<3:09:01, 3.04s/it]
48%|██████████████████████████████████████████████▊ | 3405/7135 [3:05:52<3:08:42, 3.04s/it]
48%|██████████████████████████████████████████████▊ | 3406/7135 [3:05:56<3:23:57, 3.28s/it]
48%|██████████████████████████████████████████████▊ | 3407/7135 [3:05:59<3:26:20, 3.32s/it]
48%|██████████████████████████████████████████████▊ | 3408/7135 [3:06:02<3:16:00, 3.16s/it]
48%|██████████████████████████████████████████████▊ | 3409/7135 [3:06:05<3:16:22, 3.16s/it]
48%|██████████████████████████████████████████████▊ | 3410/7135 [3:06:09<3:20:51, 3.24s/it]
{'loss': 0.7004, 'grad_norm': 4.96875, 'learning_rate': 2.7324364068133075e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.84, 'epoch': 4.78}
48%|██████████████████████████████████████████████▊ | 3410/7135 [3:06:09<3:20:51, 3.24s/it]
48%|██████████████████████████████████████████████▊ | 3411/7135 [3:06:12<3:17:15, 3.18s/it]
48%|██████████████████████████████████████████████▊ | 3412/7135 [3:06:16<3:27:36, 3.35s/it]
48%|██████████████████████████████████████████████▉ | 3413/7135 [3:06:18<3:17:04, 3.18s/it]
48%|██████████████████████████████████████████████▉ | 3414/7135 [3:06:21<3:12:46, 3.11s/it]
48%|██████████████████████████████████████████████▉ | 3415/7135 [3:06:25<3:18:44, 3.21s/it]
48%|██████████████████████████████████████████████▉ | 3416/7135 [3:06:28<3:12:52, 3.11s/it]
48%|██████████████████████████████████████████████▉ | 3417/7135 [3:06:31<3:22:05, 3.26s/it]
48%|██████████████████████████████████████████████▉ | 3418/7135 [3:06:35<3:24:11, 3.30s/it]
48%|██████████████████████████████████████████████▉ | 3419/7135 [3:06:38<3:27:48, 3.36s/it]
48%|██████████████████████████████████████████████▉ | 3420/7135 [3:06:41<3:25:13, 3.31s/it]
{'loss': 1.0262, 'grad_norm': 4.1875, 'learning_rate': 2.721318330829879e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 476.64, 'epoch': 4.79}
48%|██████████████████████████████████████████████▉ | 3420/7135 [3:06:41<3:25:13, 3.31s/it]
48%|██████████████████████████████████████████████▉ | 3421/7135 [3:06:44<3:17:38, 3.19s/it]
48%|███████████████████████████████████████████████ | 3422/7135 [3:06:47<3:16:22, 3.17s/it]
48%|███████████████████████████████████████████████ | 3423/7135 [3:06:51<3:23:22, 3.29s/it]
48%|███████████████████████████████████████████████ | 3424/7135 [3:06:54<3:21:48, 3.26s/it]
48%|███████████████████████████████████████████████ | 3425/7135 [3:06:57<3:12:23, 3.11s/it]
48%|███████████████████████████████████████████████ | 3426/7135 [3:07:00<3:15:09, 3.16s/it]
48%|███████████████████████████████████████████████ | 3427/7135 [3:07:03<3:16:12, 3.17s/it]
48%|███████████████████████████████████████████████ | 3428/7135 [3:07:06<3:11:32, 3.10s/it]
48%|███████████████████████████████████████████████ | 3429/7135 [3:07:10<3:29:47, 3.40s/it]
48%|███████████████████████████████████████████████ | 3430/7135 [3:07:14<3:28:30, 3.38s/it]
{'loss': 0.7515, 'grad_norm': 3.859375, 'learning_rate': 2.710195841294872e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 379.58, 'epoch': 4.8}
48%|███████████████████████████████████████████████ | 3430/7135 [3:07:14<3:28:30, 3.38s/it]
48%|███████████████████████████████████████████████▏ | 3431/7135 [3:07:17<3:18:17, 3.21s/it]
48%|███████████████████████████████████████████████▏ | 3432/7135 [3:07:19<3:11:19, 3.10s/it]
48%|███████████████████████████████████████████████▏ | 3433/7135 [3:07:23<3:20:28, 3.25s/it]
48%|███████████████████████████████████████████████▏ | 3434/7135 [3:07:26<3:14:48, 3.16s/it]
48%|███████████████████████████████████████████████▏ | 3435/7135 [3:07:29<3:21:00, 3.26s/it]
48%|███████████████████████████████████████████████▏ | 3436/7135 [3:07:33<3:23:27, 3.30s/it]
48%|███████████████████████████████████████████████▏ | 3437/7135 [3:07:36<3:21:10, 3.26s/it]
48%|███████████████████████████████████████████████▏ | 3438/7135 [3:07:39<3:16:53, 3.20s/it]
48%|███████████████████████████████████████████████▏ | 3439/7135 [3:07:43<3:23:01, 3.30s/it]
48%|███████████████████████████████████████████████▏ | 3440/7135 [3:07:46<3:25:40, 3.34s/it]
{'loss': 0.7936, 'grad_norm': 5.15625, 'learning_rate': 2.6990691600140502e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.0, 'epoch': 4.82}
48%|███████████████████████████████████████████████▏ | 3440/7135 [3:07:46<3:25:40, 3.34s/it]
48%|███████████████████████████████████████████████▎ | 3441/7135 [3:07:49<3:19:14, 3.24s/it]
48%|███████████████████████████████████████████████▎ | 3442/7135 [3:07:52<3:11:40, 3.11s/it]
48%|███████████████████████████████████████████████▎ | 3443/7135 [3:07:56<3:27:31, 3.37s/it]
48%|███████████████████████████████████████████████▎ | 3444/7135 [3:08:00<3:39:18, 3.57s/it]
48%|███████████████████████████████████████████████▎ | 3445/7135 [3:08:03<3:32:58, 3.46s/it]
48%|███████████████████████████████████████████████▎ | 3446/7135 [3:08:06<3:26:57, 3.37s/it]
48%|███████████████████████████████████████████████▎ | 3447/7135 [3:08:10<3:25:44, 3.35s/it]
48%|███████████████████████████████████████████████▎ | 3448/7135 [3:08:13<3:28:52, 3.40s/it]
48%|███████████████████████████████████████████████▎ | 3449/7135 [3:08:16<3:20:19, 3.26s/it]
48%|███████████████████████████████████████████████▍ | 3450/7135 [3:08:19<3:17:35, 3.22s/it]
{'loss': 0.7063, 'grad_norm': 4.9375, 'learning_rate': 2.687938508876769e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 548.93, 'epoch': 4.83}
48%|███████████████████████████████████████████████▍ | 3450/7135 [3:08:19<3:17:35, 3.22s/it]
48%|███████████████████████████████████████████████▍ | 3451/7135 [3:08:22<3:18:19, 3.23s/it]
48%|███████████████████████████████████████████████▍ | 3452/7135 [3:08:26<3:23:34, 3.32s/it]
48%|███████████████████████████████████████████████▍ | 3453/7135 [3:08:30<3:36:52, 3.53s/it]
48%|███████████████████████████████████████████████▍ | 3454/7135 [3:08:33<3:25:49, 3.36s/it]
48%|███████████████████████████████████████████████▍ | 3455/7135 [3:08:36<3:13:26, 3.15s/it]
48%|███████████████████████████████████████████████▍ | 3456/7135 [3:08:39<3:12:48, 3.14s/it]
48%|███████████████████████████████████████████████▍ | 3457/7135 [3:08:42<3:08:24, 3.07s/it]
48%|███████████████████████████████████████████████▍ | 3458/7135 [3:08:45<3:09:08, 3.09s/it]
48%|███████████████████████████████████████████████▌ | 3459/7135 [3:08:47<3:03:45, 3.00s/it]
48%|███████████████████████████████████████████████▌ | 3460/7135 [3:08:50<2:59:31, 2.93s/it]
{'loss': 0.7844, 'grad_norm': 4.6875, 'learning_rate': 2.6768041098515497e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 456.56, 'epoch': 4.85}
48%|███████████████████████████████████████████████▌ | 3460/7135 [3:08:50<2:59:31, 2.93s/it]
49%|███████████████████████████████████████████████▌ | 3461/7135 [3:08:53<2:59:27, 2.93s/it]
49%|███████████████████████████████████████████████▌ | 3462/7135 [3:08:56<3:01:05, 2.96s/it]
49%|███████████████████████████████████████████████▌ | 3463/7135 [3:08:59<3:04:40, 3.02s/it]
49%|███████████████████████████████████████████████▌ | 3464/7135 [3:09:02<3:03:12, 2.99s/it]
49%|███████████████████████████████████████████████▌ | 3465/7135 [3:09:06<3:08:28, 3.08s/it]
49%|███████████████████████████████████████████████▌ | 3466/7135 [3:09:09<3:10:31, 3.12s/it]
49%|███████████████████████████████████████████████▌ | 3467/7135 [3:09:12<3:17:28, 3.23s/it]
49%|███████████████████████████████████████████████▋ | 3468/7135 [3:09:15<3:09:46, 3.11s/it]
49%|███████████████████████████████████████████████▋ | 3469/7135 [3:09:19<3:19:13, 3.26s/it]
49%|███████████████████████████████████████████████▋ | 3470/7135 [3:09:22<3:19:30, 3.27s/it]
{'loss': 0.7102, 'grad_norm': 3.59375, 'learning_rate': 2.6656661849816556e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.18, 'epoch': 4.86}
49%|███████████████████████████████████████████████▋ | 3470/7135 [3:09:22<3:19:30, 3.27s/it]
49%|███████████████████████████████████████████████▋ | 3471/7135 [3:09:25<3:23:13, 3.33s/it]
49%|███████████████████████████████████████████████▋ | 3472/7135 [3:09:29<3:19:34, 3.27s/it]
49%|███████████████████████████████████████████████▋ | 3473/7135 [3:09:32<3:27:10, 3.39s/it]
49%|███████████████████████████████████████████████▋ | 3474/7135 [3:09:36<3:25:51, 3.37s/it]
49%|███████████████████████████████████████████████▋ | 3475/7135 [3:09:39<3:24:19, 3.35s/it]
49%|███████████████████████████████████████████████▋ | 3476/7135 [3:09:42<3:17:11, 3.23s/it]
49%|███████████████████████████████████████████████▊ | 3477/7135 [3:09:45<3:12:20, 3.15s/it]
49%|███████████████████████████████████████████████▊ | 3478/7135 [3:09:48<3:16:13, 3.22s/it]
49%|███████████████████████████████████████████████▊ | 3479/7135 [3:09:52<3:22:48, 3.33s/it]
49%|███████████████████████████████████████████████▊ | 3480/7135 [3:09:54<3:10:32, 3.13s/it]
{'loss': 0.7327, 'grad_norm': 4.1875, 'learning_rate': 2.6545249563806647e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 448.98, 'epoch': 4.87}
49%|███████████████████████████████████████████████▊ | 3480/7135 [3:09:55<3:10:32, 3.13s/it]
49%|███████████████████████████████████████████████▊ | 3481/7135 [3:09:58<3:17:52, 3.25s/it]
49%|███████████████████████████████████████████████▊ | 3482/7135 [3:10:01<3:20:36, 3.29s/it]
49%|███████████████████████████████████████████████▊ | 3483/7135 [3:10:04<3:11:58, 3.15s/it]
49%|███████████████████████████████████████████████▊ | 3484/7135 [3:10:07<3:08:02, 3.09s/it]
49%|███████████████████████████████████████████████▊ | 3485/7135 [3:10:11<3:19:48, 3.28s/it]
49%|███████████████████████████████████████████████▉ | 3486/7135 [3:10:14<3:20:41, 3.30s/it]
49%|███████████████████████████████████████████████▉ | 3487/7135 [3:10:17<3:17:39, 3.25s/it]
49%|███████████████████████████████████████████████▉ | 3488/7135 [3:10:21<3:16:10, 3.23s/it]
49%|███████████████████████████████████████████████▉ | 3489/7135 [3:10:24<3:17:18, 3.25s/it]
49%|███████████████████████████████████████████████▉ | 3490/7135 [3:10:27<3:14:38, 3.20s/it]
{'loss': 0.8074, 'grad_norm': 5.5, 'learning_rate': 2.6433806462280343e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 438.21, 'epoch': 4.89}
49%|███████████████████████████████████████████████▉ | 3490/7135 [3:10:27<3:14:38, 3.20s/it]
49%|███████████████████████████████████████████████▉ | 3491/7135 [3:10:30<3:14:06, 3.20s/it]
49%|███████████████████████████████████████████████▉ | 3492/7135 [3:10:33<3:08:53, 3.11s/it]
49%|███████████████████████████████████████████████▉ | 3493/7135 [3:10:36<2:59:48, 2.96s/it]
49%|███████████████████████████████████████████████▉ | 3494/7135 [3:10:39<3:02:21, 3.00s/it]
49%|████████████████████████████████████████████████ | 3495/7135 [3:10:42<3:01:03, 2.98s/it]
49%|████████████████████████████████████████████████ | 3496/7135 [3:10:44<2:55:45, 2.90s/it]
49%|████████████████████████████████████████████████ | 3497/7135 [3:10:47<2:54:58, 2.89s/it]
49%|████████████████████████████████████████████████ | 3498/7135 [3:10:50<2:58:27, 2.94s/it]
49%|████████████████████████████████████████████████ | 3499/7135 [3:10:55<3:27:18, 3.42s/it]
49%|████████████████████████████████████████████████ | 3500/7135 [3:10:58<3:23:32, 3.36s/it]
{'loss': 0.6736, 'grad_norm': 4.25, 'learning_rate': 2.6322334767646775e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 373.39, 'epoch': 4.9}
49%|████████████████████████████████████████████████ | 3500/7135 [3:10:58<3:23:32, 3.36s/it]
49%|████████████████████████████████████████████████ | 3501/7135 [3:11:02<3:25:28, 3.39s/it]
49%|████████████████████████████████████████████████ | 3502/7135 [3:11:04<3:16:08, 3.24s/it]
49%|████████████████████████████████████████████████ | 3503/7135 [3:11:08<3:15:08, 3.22s/it]
49%|████████████████████████████████████████████████▏ | 3504/7135 [3:11:11<3:12:12, 3.18s/it]
49%|████████████████████████████████████████████████▏ | 3505/7135 [3:11:13<3:02:32, 3.02s/it]
49%|████████████████████████████████████████████████▏ | 3506/7135 [3:11:17<3:05:58, 3.07s/it]
49%|████████████████████████████████████████████████▏ | 3507/7135 [3:11:20<3:12:03, 3.18s/it]
49%|████████████████████████████████████████████████▏ | 3508/7135 [3:11:23<3:14:29, 3.22s/it]
49%|████████████████████████████████████████████████▏ | 3509/7135 [3:11:26<3:13:08, 3.20s/it]
49%|████████████████████████████████████████████████▏ | 3510/7135 [3:11:29<3:07:48, 3.11s/it]
{'loss': 0.7016, 'grad_norm': 5.96875, 'learning_rate': 2.621083670288525e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 421.16, 'epoch': 4.92}
49%|████████████████████████████████████████████████▏ | 3510/7135 [3:11:29<3:07:48, 3.11s/it]
49%|████████████████████████████████████████████████▏ | 3511/7135 [3:11:32<2:58:33, 2.96s/it]
49%|████████████████████████████████████████████████▏ | 3512/7135 [3:11:35<3:07:29, 3.11s/it]
49%|████████████████████████████████████████████████▎ | 3513/7135 [3:11:39<3:10:19, 3.15s/it]
49%|████████████████████████████████████████████████▎ | 3514/7135 [3:11:41<3:04:50, 3.06s/it]
49%|████████████████████████████████████████████████▎ | 3515/7135 [3:11:44<3:01:28, 3.01s/it]
49%|████████████████████████████████████████████████▎ | 3516/7135 [3:11:48<3:06:56, 3.10s/it]
49%|████████████████████████████████████████████████▎ | 3517/7135 [3:11:51<3:11:51, 3.18s/it]
49%|████████████████████████████████████████████████▎ | 3518/7135 [3:11:54<3:07:58, 3.12s/it]
49%|████████████████████████████████████████████████▎ | 3519/7135 [3:11:57<3:13:04, 3.20s/it]
49%|████████████████████████████████████████████████▎ | 3520/7135 [3:12:00<3:07:25, 3.11s/it]
{'loss': 0.8335, 'grad_norm': 4.03125, 'learning_rate': 2.609931449150099e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 467.21, 'epoch': 4.93}
49%|████████████████████████████████████████████████▎ | 3520/7135 [3:12:00<3:07:25, 3.11s/it]
49%|████████████████████████████████████████████████▎ | 3521/7135 [3:12:03<3:06:31, 3.10s/it]
49%|████████████████████████████████████████████████▍ | 3522/7135 [3:12:07<3:09:47, 3.15s/it]
49%|████████████████████████████████████████████████▍ | 3523/7135 [3:12:10<3:12:17, 3.19s/it]
49%|████████████████████████████████████████████████▍ | 3524/7135 [3:12:13<3:06:49, 3.10s/it]
49%|████████████████████████████████████████████████▍ | 3525/7135 [3:12:16<3:05:03, 3.08s/it]
49%|████████████████████████████████████████████████▍ | 3526/7135 [3:12:20<3:21:51, 3.36s/it]
49%|████████████████████████████████████████████████▍ | 3527/7135 [3:12:23<3:16:34, 3.27s/it]
49%|████████████████████████████████████████████████▍ | 3528/7135 [3:12:26<3:14:06, 3.23s/it]
49%|████████████████████████████████████████████████▍ | 3529/7135 [3:12:29<3:06:34, 3.10s/it]
49%|████████████████████████████████████████████████▍ | 3530/7135 [3:12:32<3:05:31, 3.09s/it]
{'loss': 0.6851, 'grad_norm': 5.3125, 'learning_rate': 2.598777035748072e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.98, 'epoch': 4.94}
49%|████████████████████████████████████████████████▍ | 3530/7135 [3:12:32<3:05:31, 3.09s/it]
49%|████████████████████████████████████████████████▍ | 3531/7135 [3:12:36<3:16:12, 3.27s/it]
50%|████████████████████████████████████████████████▌ | 3532/7135 [3:12:39<3:19:46, 3.33s/it]
50%|████████████████████████████████████████████████▌ | 3533/7135 [3:12:42<3:14:01, 3.23s/it]
50%|████████████████████████████████████████████████▌ | 3534/7135 [3:12:46<3:18:23, 3.31s/it]
50%|████████████████████████████████████████████████▌ | 3535/7135 [3:12:49<3:17:38, 3.29s/it]
50%|████████████████████████████████████████████████▌ | 3536/7135 [3:12:52<3:21:51, 3.37s/it]
50%|████████████████████████████████████████████████▌ | 3537/7135 [3:12:56<3:22:24, 3.38s/it]
50%|████████████████████████████████████████████████▌ | 3538/7135 [3:12:59<3:22:34, 3.38s/it]
50%|████████████████████████████████████████████████▌ | 3539/7135 [3:13:03<3:24:39, 3.41s/it]
50%|████████████████████████████████████████████████▌ | 3540/7135 [3:13:06<3:19:14, 3.33s/it]
{'loss': 0.8771, 'grad_norm': 4.34375, 'learning_rate': 2.587620652524836e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 522.73, 'epoch': 4.96}
50%|████████████████████████████████████████████████▌ | 3540/7135 [3:13:06<3:19:14, 3.33s/it]
50%|████████████████████████████████████████████████▋ | 3541/7135 [3:13:10<3:28:28, 3.48s/it]
50%|████████████████████████████████████████████████▋ | 3542/7135 [3:13:13<3:20:52, 3.35s/it]
50%|████████████████████████████████████████████████▋ | 3543/7135 [3:13:16<3:18:02, 3.31s/it]
50%|████████████████████████████████████████████████▋ | 3544/7135 [3:13:19<3:22:37, 3.39s/it]
50%|████████████████████████████████████████████████▋ | 3545/7135 [3:13:23<3:19:35, 3.34s/it]
50%|████████████████████████████████████████████████▋ | 3546/7135 [3:13:26<3:25:56, 3.44s/it]
50%|████████████████████████████████████████████████▋ | 3547/7135 [3:13:29<3:20:10, 3.35s/it]
50%|████████████████████████████████████████████████▋ | 3548/7135 [3:13:32<3:11:17, 3.20s/it]
50%|████████████████████████████████████████████████▋ | 3549/7135 [3:13:36<3:12:30, 3.22s/it]
50%|████████████████████████████████████████████████▊ | 3550/7135 [3:13:38<3:02:20, 3.05s/it]
{'loss': 0.7585, 'grad_norm': 4.6875, 'learning_rate': 2.5764625219620652e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 620.09, 'epoch': 4.97}
50%|████████████████████████████████████████████████▊ | 3550/7135 [3:13:38<3:02:20, 3.05s/it]
50%|████████████████████████████████████████████████▊ | 3551/7135 [3:13:42<3:08:57, 3.16s/it]
50%|████████████████████████████████████████████████▊ | 3552/7135 [3:13:45<3:10:04, 3.18s/it]
50%|████████████████████████████████████████████████▊ | 3553/7135 [3:13:48<3:05:48, 3.11s/it]
50%|████████████████████████████████████████████████▊ | 3554/7135 [3:13:51<3:05:03, 3.10s/it]
50%|████████████████████████████████████████████████▊ | 3555/7135 [3:13:54<3:04:41, 3.10s/it]
50%|████████████████████████████████████████████████▊ | 3556/7135 [3:13:58<3:22:20, 3.39s/it]
50%|████████████████████████████████████████████████▊ | 3557/7135 [3:14:01<3:18:23, 3.33s/it]
50%|████████████████████████████████████████████████▊ | 3558/7135 [3:14:04<3:14:59, 3.27s/it]
50%|████████████████████████████████████████████████▉ | 3559/7135 [3:14:08<3:12:26, 3.23s/it]
50%|████████████████████████████████████████████████▉ | 3560/7135 [3:14:11<3:16:55, 3.31s/it]
{'loss': 0.7683, 'grad_norm': 4.71875, 'learning_rate': 2.5653028665762804e-06, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.94, 'epoch': 4.99}
50%|████████████████████████████████████████████████▉ | 3560/7135 [3:14:11<3:16:55, 3.31s/it]
50%|████████████████████████████████████████████████▉ | 3561/7135 [3:14:14<3:07:22, 3.15s/it]
50%|████████████████████████████████████████████████▉ | 3562/7135 [3:14:17<3:00:48, 3.04s/it]
50%|████████████████████████████████████████████████▉ | 3563/7135 [3:14:20<3:07:52, 3.16s/it]
50%|████████████████████████████████████████████████▉ | 3564/7135 [3:14:24<3:23:22, 3.42s/it]
50%|████████████████████████████████████████████████▉ | 3565/7135 [3:14:28<3:30:20, 3.54s/it]
50%|████████████████████████████████████████████████▉ | 3566/7135 [3:14:31<3:16:26, 3.30s/it]
50%|████████████████████████████████████████████████▉ | 3567/7135 [3:14:33<3:02:54, 3.08s/it]
50%|█████████████████████████████████████████████████ | 3568/7135 [3:14:37<3:12:01, 3.23s/it]
50%|█████████████████████████████████████████████████ | 3569/7135 [3:14:40<3:04:16, 3.10s/it]
50%|█████████████████████████████████████████████████ | 3570/7135 [3:14:41<2:33:14, 2.58s/it]
{'loss': 0.7058, 'grad_norm': 9.1875, 'learning_rate': 2.5541419089144074e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 1008.4, 'epoch': 5.0}
50%|█████████████████████████████████████████████████ | 3570/7135 [3:14:41<2:33:14, 2.58s/it][2025-12-23 17:38:47,108] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-3570
50%|████████████████████████████████████████████████▌ | 3571/7135 [3:15:48<21:49:03, 22.04s/it]
50%|████████████████████████████████████████████████▌ | 3572/7135 [3:15:51<16:11:50, 16.37s/it]
50%|████████████████████████████████████████████████▌ | 3573/7135 [3:15:55<12:15:38, 12.39s/it]
50%|█████████████████████████████████████████████████ | 3574/7135 [3:15:58<9:33:20, 9.66s/it]
50%|█████████████████████████████████████████████████ | 3575/7135 [3:16:02<7:48:04, 7.89s/it]
50%|█████████████████████████████████████████████████ | 3576/7135 [3:16:05<6:24:52, 6.49s/it]
50%|█████████████████████████████████████████████████▏ | 3577/7135 [3:16:08<5:18:41, 5.37s/it]
50%|█████████████████████████████████████████████████▏ | 3578/7135 [3:16:11<4:38:33, 4.70s/it]
50%|█████████████████████████████████████████████████▏ | 3579/7135 [3:16:14<4:13:00, 4.27s/it]
50%|█████████████████████████████████████████████████▏ | 3580/7135 [3:16:17<3:57:41, 4.01s/it]
{'loss': 0.7995, 'grad_norm': 3.96875, 'learning_rate': 2.5429798715493466e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 335.96, 'epoch': 5.01}
50%|█████████████████████████████████████████████████▏ | 3580/7135 [3:16:17<3:57:41, 4.01s/it]
50%|█████████████████████████████████████████████████▏ | 3581/7135 [3:16:21<3:46:13, 3.82s/it]
50%|█████████████████████████████████████████████████▏ | 3582/7135 [3:16:24<3:34:30, 3.62s/it]
50%|█████████████████████████████████████████████████▏ | 3583/7135 [3:16:28<3:33:45, 3.61s/it]
50%|█████████████████████████████████████████████████▏ | 3584/7135 [3:16:30<3:20:18, 3.38s/it]
50%|█████████████████████████████████████████████████▏ | 3585/7135 [3:16:34<3:16:05, 3.31s/it]
50%|█████████████████████████████████████████████████▎ | 3586/7135 [3:16:37<3:10:33, 3.22s/it]
50%|█████████████████████████████████████████████████▎ | 3587/7135 [3:16:40<3:06:26, 3.15s/it]
50%|█████████████████████████████████████████████████▎ | 3588/7135 [3:16:43<3:08:18, 3.19s/it]
50%|█████████████████████████████████████████████████▎ | 3589/7135 [3:16:47<3:17:10, 3.34s/it]
50%|█████████████████████████████████████████████████▎ | 3590/7135 [3:16:50<3:28:09, 3.52s/it]
{'loss': 0.7725, 'grad_norm': 6.21875, 'learning_rate': 2.531816977075526e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 313.44, 'epoch': 5.03}
50%|█████████████████████████████████████████████████▎ | 3590/7135 [3:16:51<3:28:09, 3.52s/it]
50%|█████████████████████████████████████████████████▎ | 3591/7135 [3:16:54<3:33:47, 3.62s/it]
50%|█████████████████████████████████████████████████▎ | 3592/7135 [3:16:57<3:24:59, 3.47s/it]
50%|█████████████████████████████████████████████████▎ | 3593/7135 [3:17:00<3:14:15, 3.29s/it]
50%|█████████████████████████████████████████████████▎ | 3594/7135 [3:17:04<3:16:17, 3.33s/it]
50%|█████████████████████████████████████████████████▍ | 3595/7135 [3:17:07<3:11:33, 3.25s/it]
50%|█████████████████████████████████████████████████▍ | 3596/7135 [3:17:10<3:03:49, 3.12s/it]
50%|█████████████████████████████████████████████████▍ | 3597/7135 [3:17:12<2:56:03, 2.99s/it]
50%|█████████████████████████████████████████████████▍ | 3598/7135 [3:17:16<3:03:03, 3.11s/it]
50%|█████████████████████████████████████████████████▍ | 3599/7135 [3:17:19<2:59:38, 3.05s/it]
50%|█████████████████████████████████████████████████▍ | 3600/7135 [3:17:22<3:02:42, 3.10s/it]
{'loss': 0.7273, 'grad_norm': 6.21875, 'learning_rate': 2.520653448104468e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 341.08, 'epoch': 5.04}
50%|█████████████████████████████████████████████████▍ | 3600/7135 [3:17:22<3:02:42, 3.10s/it]
50%|█████████████████████████████████████████████████▍ | 3601/7135 [3:17:25<3:08:02, 3.19s/it]
50%|█████████████████████████████████████████████████▍ | 3602/7135 [3:17:29<3:12:39, 3.27s/it]
50%|█████████████████████████████████████████████████▍ | 3603/7135 [3:17:32<3:06:42, 3.17s/it]
51%|█████████████████████████████████████████████████▌ | 3604/7135 [3:17:35<3:15:06, 3.32s/it]
51%|█████████████████████████████████████████████████▌ | 3605/7135 [3:17:38<3:10:20, 3.24s/it]
51%|█████████████████████████████████████████████████▌ | 3606/7135 [3:17:42<3:11:08, 3.25s/it]
51%|█████████████████████████████████████████████████▌ | 3607/7135 [3:17:45<3:14:09, 3.30s/it]
51%|█████████████████████████████████████████████████▌ | 3608/7135 [3:17:48<3:06:41, 3.18s/it]
51%|█████████████████████████████████████████████████▌ | 3609/7135 [3:17:51<3:05:29, 3.16s/it]
51%|█████████████████████████████████████████████████▌ | 3610/7135 [3:17:54<2:57:04, 3.01s/it]
{'loss': 0.8098, 'grad_norm': 5.28125, 'learning_rate': 2.50948950726035e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 435.39, 'epoch': 5.06}
51%|█████████████████████████████████████████████████▌ | 3610/7135 [3:17:54<2:57:04, 3.01s/it]
51%|█████████████████████████████████████████████████▌ | 3611/7135 [3:17:57<2:59:54, 3.06s/it]
51%|█████████████████████████████████████████████████▌ | 3612/7135 [3:18:00<3:02:51, 3.11s/it]
51%|█████████████████████████████████████████████████▌ | 3613/7135 [3:18:03<3:01:18, 3.09s/it]
51%|█████████████████████████████████████████████████▋ | 3614/7135 [3:18:06<3:02:57, 3.12s/it]
51%|█████████████████████████████████████████████████▋ | 3615/7135 [3:18:09<2:54:19, 2.97s/it]
51%|█████████████████████████████████████████████████▋ | 3616/7135 [3:18:12<2:57:52, 3.03s/it]
51%|█████████████████████████████████████████████████▋ | 3617/7135 [3:18:15<2:57:36, 3.03s/it]
51%|█████████████████████████████████████████████████▋ | 3618/7135 [3:18:19<3:07:03, 3.19s/it]
51%|█████████████████████████████████████████████████▋ | 3619/7135 [3:18:22<3:08:09, 3.21s/it]
51%|█████████████████████████████████████████████████▋ | 3620/7135 [3:18:25<3:04:06, 3.14s/it]
{'loss': 0.6158, 'grad_norm': 4.84375, 'learning_rate': 2.4983253771755593e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 445.45, 'epoch': 5.07}
51%|█████████████████████████████████████████████████▋ | 3620/7135 [3:18:25<3:04:06, 3.14s/it]
51%|█████████████████████████████████████████████████▋ | 3621/7135 [3:18:28<3:05:11, 3.16s/it]
51%|█████████████████████████████████████████████████▋ | 3622/7135 [3:18:31<2:56:26, 3.01s/it]
51%|█████████████████████████████████████████████████▊ | 3623/7135 [3:18:34<2:54:17, 2.98s/it]
51%|█████████████████████████████████████████████████▊ | 3624/7135 [3:18:37<2:57:02, 3.03s/it]
51%|█████████████████████████████████████████████████▊ | 3625/7135 [3:18:40<2:55:10, 2.99s/it]
51%|█████████████████████████████████████████████████▊ | 3626/7135 [3:18:43<2:56:35, 3.02s/it]
51%|█████████████████████████████████████████████████▊ | 3627/7135 [3:18:46<3:03:38, 3.14s/it]
51%|█████████████████████████████████████████████████▊ | 3628/7135 [3:18:49<3:04:09, 3.15s/it]
51%|█████████████████████████████████████████████████▊ | 3629/7135 [3:18:52<2:59:33, 3.07s/it]
51%|█████████████████████████████████████████████████▊ | 3630/7135 [3:18:56<3:14:53, 3.34s/it]
{'loss': 0.7007, 'grad_norm': 3.75, 'learning_rate': 2.487161280486259e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 305.77, 'epoch': 5.08}
51%|█████████████████████████████████████████████████▊ | 3630/7135 [3:18:56<3:14:53, 3.34s/it]
51%|█████████████████████████████████████████████████▊ | 3631/7135 [3:19:00<3:12:56, 3.30s/it]
51%|█████████████████████████████████████████████████▉ | 3632/7135 [3:19:03<3:09:01, 3.24s/it]
51%|█████████████████████████████████████████████████▉ | 3633/7135 [3:19:06<3:09:18, 3.24s/it]
51%|█████████████████████████████████████████████████▉ | 3634/7135 [3:19:09<3:09:25, 3.25s/it]
51%|█████████████████████████████████████████████████▉ | 3635/7135 [3:19:12<3:07:03, 3.21s/it]
51%|█████████████████████████████████████████████████▉ | 3636/7135 [3:19:15<3:04:19, 3.16s/it]
51%|█████████████████████████████████████████████████▉ | 3637/7135 [3:19:18<2:53:44, 2.98s/it]
51%|█████████████████████████████████████████████████▉ | 3638/7135 [3:19:21<2:51:47, 2.95s/it]
51%|█████████████████████████████████████████████████▉ | 3639/7135 [3:19:24<2:51:30, 2.94s/it]
51%|█████████████████████████████████████████████████▉ | 3640/7135 [3:19:27<2:57:00, 3.04s/it]
{'loss': 0.8581, 'grad_norm': 5.65625, 'learning_rate': 2.475997439827945e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 383.74, 'epoch': 5.1}
51%|█████████████████████████████████████████████████▉ | 3640/7135 [3:19:27<2:57:00, 3.04s/it]
51%|██████████████████████████████████████████████████ | 3641/7135 [3:19:30<2:53:29, 2.98s/it]
51%|██████████████████████████████████████████████████ | 3642/7135 [3:19:33<2:58:25, 3.06s/it]
51%|██████████████████████████████████████████████████ | 3643/7135 [3:19:36<3:02:27, 3.14s/it]
51%|██████████████████████████████████████████████████ | 3644/7135 [3:19:40<3:04:15, 3.17s/it]
51%|██████████████████████████████████████████████████ | 3645/7135 [3:19:43<3:01:25, 3.12s/it]
51%|██████████████████████████████████████████████████ | 3646/7135 [3:19:46<3:00:50, 3.11s/it]
51%|██████████████████████████████████████████████████ | 3647/7135 [3:19:49<3:07:48, 3.23s/it]
51%|██████████████████████████████████████████████████ | 3648/7135 [3:19:52<3:00:29, 3.11s/it]
51%|██████████████████████████████████████████████████ | 3649/7135 [3:19:55<3:07:50, 3.23s/it]
51%|██████████████████████████████████████████████████▏ | 3650/7135 [3:19:59<3:10:59, 3.29s/it]
{'loss': 0.7491, 'grad_norm': 6.40625, 'learning_rate': 2.4648340778310104e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.16, 'epoch': 5.11}
51%|██████████████████████████████████████████████████▏ | 3650/7135 [3:19:59<3:10:59, 3.29s/it]
51%|██████████████████████████████████████████████████▏ | 3651/7135 [3:20:03<3:23:15, 3.50s/it]
51%|██████████████████████████████████████████████████▏ | 3652/7135 [3:20:06<3:17:12, 3.40s/it]
51%|██████████████████████████████████████████████████▏ | 3653/7135 [3:20:09<3:07:51, 3.24s/it]
51%|██████████████████████████████████████████████████▏ | 3654/7135 [3:20:13<3:15:46, 3.37s/it]
51%|██████████████████████████████████████████████████▏ | 3655/7135 [3:20:16<3:19:44, 3.44s/it]
51%|██████████████████████████████████████████████████▏ | 3656/7135 [3:20:19<3:08:42, 3.25s/it]
51%|██████████████████████████████████████████████████▏ | 3657/7135 [3:20:22<3:04:31, 3.18s/it]
51%|██████████████████████████████████████████████████▏ | 3658/7135 [3:20:25<3:01:37, 3.13s/it]
51%|██████████████████████████████████████████████████▎ | 3659/7135 [3:20:28<3:04:37, 3.19s/it]
51%|██████████████████████████████████████████████████▎ | 3660/7135 [3:20:31<2:57:56, 3.07s/it]
{'loss': 0.7674, 'grad_norm': 4.5, 'learning_rate': 2.4536714171163e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 463.82, 'epoch': 5.13}
51%|██████████████████████████████████████████████████▎ | 3660/7135 [3:20:31<2:57:56, 3.07s/it]
51%|██████████████████████████████████████████████████▎ | 3661/7135 [3:20:35<3:02:19, 3.15s/it]
51%|██████████████████████████████████████████████████▎ | 3662/7135 [3:20:38<3:02:58, 3.16s/it]
51%|██████████████████████████████████████████████████▎ | 3663/7135 [3:20:41<3:03:28, 3.17s/it]
51%|██████████████████████████████████████████████████▎ | 3664/7135 [3:20:44<3:05:15, 3.20s/it]
51%|██████████████████████████████████████████████████▎ | 3665/7135 [3:20:47<3:04:17, 3.19s/it]
51%|██████████████████████████████████████████████████▎ | 3666/7135 [3:20:50<2:59:21, 3.10s/it]
51%|██████████████████████████████████████████████████▎ | 3667/7135 [3:20:53<2:56:06, 3.05s/it]
51%|██████████████████████████████████████████████████▍ | 3668/7135 [3:20:56<2:54:46, 3.02s/it]
51%|██████████████████████████████████████████████████▍ | 3669/7135 [3:21:00<3:00:48, 3.13s/it]
51%|██████████████████████████████████████████████████▍ | 3670/7135 [3:21:03<2:59:26, 3.11s/it]
{'loss': 0.8494, 'grad_norm': 4.9375, 'learning_rate': 2.442509680290674e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.49, 'epoch': 5.14}
51%|██████████████████████████████████████████████████▍ | 3670/7135 [3:21:03<2:59:26, 3.11s/it]
51%|██████████████████████████████████████████████████▍ | 3671/7135 [3:21:06<2:56:50, 3.06s/it]
51%|██████████████████████████████████████████████████▍ | 3672/7135 [3:21:09<2:57:33, 3.08s/it]
51%|██████████████████████████████████████████████████▍ | 3673/7135 [3:21:12<3:00:25, 3.13s/it]
51%|██████████████████████████████████████████████████▍ | 3674/7135 [3:21:15<2:57:38, 3.08s/it]
52%|██████████████████████████████████████████████████▍ | 3675/7135 [3:21:18<2:58:36, 3.10s/it]
52%|██████████████████████████████████████████████████▍ | 3676/7135 [3:21:21<3:03:21, 3.18s/it]
52%|██████████████████████████████████████████████████▌ | 3677/7135 [3:21:25<3:04:38, 3.20s/it]
52%|██████████████████████████████████████████████████▌ | 3678/7135 [3:21:28<3:04:37, 3.20s/it]
52%|██████████████████████████████████████████████████▌ | 3679/7135 [3:21:32<3:17:11, 3.42s/it]
52%|██████████████████████████████████████████████████▌ | 3680/7135 [3:21:35<3:09:42, 3.29s/it]
{'loss': 0.7025, 'grad_norm': 5.6875, 'learning_rate': 2.4313490899425694e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.12, 'epoch': 5.15}
52%|██████████████████████████████████████████████████▌ | 3680/7135 [3:21:35<3:09:42, 3.29s/it]
52%|██████████████████████████████████████████████████▌ | 3681/7135 [3:21:39<3:18:12, 3.44s/it]
52%|██████████████████████████████████████████████████▌ | 3682/7135 [3:21:42<3:20:05, 3.48s/it]
52%|██████████████████████████████████████████████████▌ | 3683/7135 [3:21:45<3:17:23, 3.43s/it]
52%|██████████████████████████████████████████████████▌ | 3684/7135 [3:21:49<3:23:20, 3.54s/it]
52%|██████████████████████████████████████████████████▌ | 3685/7135 [3:21:53<3:31:41, 3.68s/it]
52%|██████████████████████████████████████████████████▋ | 3686/7135 [3:21:57<3:29:38, 3.65s/it]
52%|██████████████████████████████████████████████████▋ | 3687/7135 [3:22:00<3:15:02, 3.39s/it]
52%|██████████████████████████████████████████████████▋ | 3688/7135 [3:22:03<3:12:10, 3.35s/it]
52%|██████████████████████████████████████████████████▋ | 3689/7135 [3:22:06<3:11:01, 3.33s/it]
52%|██████████████████████████████████████████████████▋ | 3690/7135 [3:22:09<3:06:28, 3.25s/it]
{'loss': 0.7543, 'grad_norm': 5.6875, 'learning_rate': 2.420189868637559e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.32, 'epoch': 5.17}
52%|██████████████████████████████████████████████████▋ | 3690/7135 [3:22:09<3:06:28, 3.25s/it]
52%|██████████████████████████████████████████████████▋ | 3691/7135 [3:22:12<3:03:10, 3.19s/it]
52%|██████████████████████████████████████████████████▋ | 3692/7135 [3:22:15<2:55:39, 3.06s/it]
52%|██████████████████████████████████████████████████▋ | 3693/7135 [3:22:18<2:54:27, 3.04s/it]
52%|██████████████████████████████████████████████████▋ | 3694/7135 [3:22:22<3:07:35, 3.27s/it]
52%|██████████████████████████████████████████████████▊ | 3695/7135 [3:22:25<3:08:44, 3.29s/it]
52%|██████████████████████████████████████████████████▊ | 3696/7135 [3:22:28<2:58:40, 3.12s/it]
52%|██████████████████████████████████████████████████▊ | 3697/7135 [3:22:31<3:01:55, 3.18s/it]
52%|██████████████████████████████████████████████████▊ | 3698/7135 [3:22:34<3:02:33, 3.19s/it]
52%|██████████████████████████████████████████████████▊ | 3699/7135 [3:22:37<2:58:30, 3.12s/it]
52%|██████████████████████████████████████████████████▊ | 3700/7135 [3:22:40<2:53:41, 3.03s/it]
{'loss': 0.7447, 'grad_norm': 4.6875, 'learning_rate': 2.409032238913913e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.72, 'epoch': 5.18}
52%|██████████████████████████████████████████████████▊ | 3700/7135 [3:22:40<2:53:41, 3.03s/it]
52%|██████████████████████████████████████████████████▊ | 3701/7135 [3:22:43<2:51:22, 2.99s/it]
52%|██████████████████████████████████████████████████▊ | 3702/7135 [3:22:46<2:53:47, 3.04s/it]
52%|██████████████████████████████████████████████████▊ | 3703/7135 [3:22:49<2:54:14, 3.05s/it]
52%|██████████████████████████████████████████████████▊ | 3704/7135 [3:22:52<2:56:57, 3.09s/it]
52%|██████████████████████████████████████████████████▉ | 3705/7135 [3:22:55<2:52:40, 3.02s/it]
52%|██████████████████████████████████████████████████▉ | 3706/7135 [3:22:59<2:57:55, 3.11s/it]
52%|██████████████████████████████████████████████████▉ | 3707/7135 [3:23:02<2:56:22, 3.09s/it]
52%|██████████████████████████████████████████████████▉ | 3708/7135 [3:23:05<2:55:03, 3.06s/it]
52%|██████████████████████████████████████████████████▉ | 3709/7135 [3:23:07<2:45:47, 2.90s/it]
52%|██████████████████████████████████████████████████▉ | 3710/7135 [3:23:10<2:47:42, 2.94s/it]
{'loss': 0.7302, 'grad_norm': 5.4375, 'learning_rate': 2.3978764232781657e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 346.54, 'epoch': 5.2}
52%|██████████████████████████████████████████████████▉ | 3710/7135 [3:23:10<2:47:42, 2.94s/it]
52%|██████████████████████████████████████████████████▉ | 3711/7135 [3:23:14<3:03:43, 3.22s/it]
52%|██████████████████████████████████████████████████▉ | 3712/7135 [3:23:17<3:00:48, 3.17s/it]
52%|██████████████████████████████████████████████████▉ | 3713/7135 [3:23:20<2:57:42, 3.12s/it]
52%|███████████████████████████████████████████████████ | 3714/7135 [3:23:23<2:56:16, 3.09s/it]
52%|███████████████████████████████████████████████████ | 3715/7135 [3:23:26<2:52:34, 3.03s/it]
52%|███████████████████████████████████████████████████ | 3716/7135 [3:23:29<2:55:37, 3.08s/it]
52%|███████████████████████████████████████████████████ | 3717/7135 [3:23:33<3:00:11, 3.16s/it]
52%|███████████████████████████████████████████████████ | 3718/7135 [3:23:36<2:56:27, 3.10s/it]
52%|███████████████████████████████████████████████████ | 3719/7135 [3:23:38<2:51:14, 3.01s/it]
52%|███████████████████████████████████████████████████ | 3720/7135 [3:23:42<3:09:29, 3.33s/it]
{'loss': 0.604, 'grad_norm': 4.5, 'learning_rate': 2.3867226442006714e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 274.63, 'epoch': 5.21}
52%|███████████████████████████████████████████████████ | 3720/7135 [3:23:42<3:09:29, 3.33s/it]
52%|███████████████████████████████████████████████████ | 3721/7135 [3:23:46<3:10:04, 3.34s/it]
52%|███████████████████████████████████████████████████ | 3722/7135 [3:23:49<3:12:16, 3.38s/it]
52%|███████████████████████████████████████████████████▏ | 3723/7135 [3:23:53<3:12:40, 3.39s/it]
52%|███████████████████████████████████████████████████▏ | 3724/7135 [3:23:57<3:20:57, 3.53s/it]
52%|███████████████████████████████████████████████████▏ | 3725/7135 [3:24:00<3:17:03, 3.47s/it]
52%|███████████████████████████████████████████████████▏ | 3726/7135 [3:24:03<3:11:06, 3.36s/it]
52%|███████████████████████████████████████████████████▏ | 3727/7135 [3:24:06<3:05:26, 3.26s/it]
52%|███████████████████████████████████████████████████▏ | 3728/7135 [3:24:09<2:57:33, 3.13s/it]
52%|███████████████████████████████████████████████████▏ | 3729/7135 [3:24:12<2:58:03, 3.14s/it]
52%|███████████████████████████████████████████████████▏ | 3730/7135 [3:24:15<2:58:48, 3.15s/it]
{'loss': 0.7918, 'grad_norm': 3.421875, 'learning_rate': 2.375571124111172e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 402.05, 'epoch': 5.22}
52%|███████████████████████████████████████████████████▏ | 3730/7135 [3:24:15<2:58:48, 3.15s/it]
52%|███████████████████████████████████████████████████▏ | 3731/7135 [3:24:19<3:03:02, 3.23s/it]
52%|███████████████████████████████████████████████████▎ | 3732/7135 [3:24:22<3:04:14, 3.25s/it]
52%|███████████████████████████████████████████████████▎ | 3733/7135 [3:24:25<3:01:18, 3.20s/it]
52%|███████████████████████████████████████████████████▎ | 3734/7135 [3:24:28<2:59:43, 3.17s/it]
52%|███████████████████████████████████████████████████▎ | 3735/7135 [3:24:31<3:01:23, 3.20s/it]
52%|███████████████████████████████████████████████████▎ | 3736/7135 [3:24:35<3:05:26, 3.27s/it]
52%|███████████████████████████████████████████████████▎ | 3737/7135 [3:24:38<3:07:04, 3.30s/it]
52%|███████████████████████████████████████████████████▎ | 3738/7135 [3:24:41<3:04:29, 3.26s/it]
52%|███████████████████████████████████████████████████▎ | 3739/7135 [3:24:46<3:20:38, 3.54s/it]
52%|███████████████████████████████████████████████████▎ | 3740/7135 [3:24:49<3:12:49, 3.41s/it]
{'loss': 0.6729, 'grad_norm': 5.25, 'learning_rate': 2.3644220853943613e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 441.34, 'epoch': 5.24}
52%|███████████████████████████████████████████████████▎ | 3740/7135 [3:24:49<3:12:49, 3.41s/it]
52%|███████████████████████████████████████████████████▍ | 3741/7135 [3:24:52<3:09:07, 3.34s/it]
52%|███████████████████████████████████████████████████▍ | 3742/7135 [3:24:56<3:15:52, 3.46s/it]
52%|███████████████████████████████████████████████████▍ | 3743/7135 [3:24:58<3:07:00, 3.31s/it]
52%|███████████████████████████████████████████████████▍ | 3744/7135 [3:25:03<3:24:30, 3.62s/it]
52%|███████████████████████████████████████████████████▍ | 3745/7135 [3:25:06<3:13:34, 3.43s/it]
53%|███████████████████████████████████████████████████▍ | 3746/7135 [3:25:09<3:14:18, 3.44s/it]
53%|███████████████████████████████████████████████████▍ | 3747/7135 [3:25:12<3:03:19, 3.25s/it]
53%|███████████████████████████████████████████████████▍ | 3748/7135 [3:25:16<3:07:15, 3.32s/it]
53%|███████████████████████████████████████████████████▍ | 3749/7135 [3:25:19<3:06:13, 3.30s/it]
53%|███████████████████████████████████████████████████▌ | 3750/7135 [3:25:22<2:58:34, 3.17s/it]
{'loss': 0.7931, 'grad_norm': 4.65625, 'learning_rate': 2.353275750385447e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 410.09, 'epoch': 5.25}
53%|███████████████████████████████████████████████████▌ | 3750/7135 [3:25:22<2:58:34, 3.17s/it]
53%|███████████████████████████████████████████████████▌ | 3751/7135 [3:25:24<2:51:17, 3.04s/it]
53%|███████████████████████████████████████████████████▌ | 3752/7135 [3:25:28<2:56:10, 3.12s/it]
53%|███████████████████████████████████████████████████▌ | 3753/7135 [3:25:31<2:51:06, 3.04s/it]
53%|███████████████████████████████████████████████████▌ | 3754/7135 [3:25:34<2:53:51, 3.09s/it]
53%|███████████████████████████████████████████████████▌ | 3755/7135 [3:25:38<3:05:48, 3.30s/it]
53%|███████████████████████████████████████████████████▌ | 3756/7135 [3:25:40<2:58:05, 3.16s/it]
53%|███████████████████████████████████████████████████▌ | 3757/7135 [3:25:43<2:49:21, 3.01s/it]
53%|███████████████████████████████████████████████████▌ | 3758/7135 [3:25:47<2:58:35, 3.17s/it]
53%|███████████████████████████████████████████████████▋ | 3759/7135 [3:25:51<3:14:27, 3.46s/it]
53%|███████████████████████████████████████████████████▋ | 3760/7135 [3:25:54<3:09:01, 3.36s/it]
{'loss': 0.9975, 'grad_norm': 2.875, 'learning_rate': 2.3421323413657233e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 506.3, 'epoch': 5.27}
53%|███████████████████████████████████████████████████▋ | 3760/7135 [3:25:54<3:09:01, 3.36s/it]
53%|███████████████████████████████████████████████████▋ | 3761/7135 [3:25:57<3:04:36, 3.28s/it]
53%|███████████████████████████████████████████████████▋ | 3762/7135 [3:26:00<2:54:43, 3.11s/it]
53%|███████████████████████████████████████████████████▋ | 3763/7135 [3:26:04<3:12:02, 3.42s/it]
53%|███████████████████████████████████████████████████▋ | 3764/7135 [3:26:07<3:12:52, 3.43s/it]
53%|███████████████████████████████████████████████████▋ | 3765/7135 [3:26:11<3:12:37, 3.43s/it]
53%|███████████████████████████████████████████████████▋ | 3766/7135 [3:26:14<3:11:42, 3.41s/it]
53%|███████████████████████████████████████████████████▋ | 3767/7135 [3:26:18<3:14:03, 3.46s/it]
53%|███████████████████████████████████████████████████▊ | 3768/7135 [3:26:21<3:10:38, 3.40s/it]
53%|███████████████████████████████████████████████████▊ | 3769/7135 [3:26:25<3:16:12, 3.50s/it]
53%|███████████████████████████████████████████████████▊ | 3770/7135 [3:26:28<3:08:05, 3.35s/it]
{'loss': 0.6516, 'grad_norm': 5.0625, 'learning_rate': 2.3309920805581306e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 452.25, 'epoch': 5.28}
53%|███████████████████████████████████████████████████▊ | 3770/7135 [3:26:28<3:08:05, 3.35s/it]
53%|███████████████████████████████████████████████████▊ | 3771/7135 [3:26:31<3:05:45, 3.31s/it]
53%|███████████████████████████████████████████████████▊ | 3772/7135 [3:26:34<3:04:25, 3.29s/it]
53%|███████████████████████████████████████████████████▊ | 3773/7135 [3:26:37<3:05:15, 3.31s/it]
53%|███████████████████████████████████████████████████▊ | 3774/7135 [3:26:40<3:00:32, 3.22s/it]
53%|███████████████████████████████████████████████████▊ | 3775/7135 [3:26:44<2:57:33, 3.17s/it]
53%|███████████████████████████████████████████████████▊ | 3776/7135 [3:26:46<2:51:18, 3.06s/it]
53%|███████████████████████████████████████████████████▉ | 3777/7135 [3:26:49<2:47:49, 3.00s/it]
53%|███████████████████████████████████████████████████▉ | 3778/7135 [3:26:52<2:39:18, 2.85s/it]
53%|███████████████████████████████████████████████████▉ | 3779/7135 [3:26:55<2:49:13, 3.03s/it]
53%|███████████████████████████████████████████████████▉ | 3780/7135 [3:26:59<2:58:52, 3.20s/it]
{'loss': 0.6869, 'grad_norm': 5.375, 'learning_rate': 2.3198551901228273e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 284.96, 'epoch': 5.29}
53%|███████████████████████████████████████████████████▉ | 3780/7135 [3:26:59<2:58:52, 3.20s/it]
53%|███████████████████████████████████████████████████▉ | 3781/7135 [3:27:02<2:53:41, 3.11s/it]
53%|███████████████████████████████████████████████████▉ | 3782/7135 [3:27:05<2:52:38, 3.09s/it]
53%|███████████████████████████████████████████████████▉ | 3783/7135 [3:27:07<2:48:21, 3.01s/it]
53%|███████████████████████████████████████████████████▉ | 3784/7135 [3:27:11<2:49:31, 3.04s/it]
53%|███████████████████████████████████████████████████▉ | 3785/7135 [3:27:13<2:46:53, 2.99s/it]
53%|████████████████████████████████████████████████████ | 3786/7135 [3:27:17<3:03:10, 3.28s/it]
53%|████████████████████████████████████████████████████ | 3787/7135 [3:27:20<2:57:17, 3.18s/it]
53%|████████████████████████████████████████████████████ | 3788/7135 [3:27:23<2:53:56, 3.12s/it]
53%|████████████████████████████████████████████████████ | 3789/7135 [3:27:27<2:58:55, 3.21s/it]
53%|████████████████████████████████████████████████████ | 3790/7135 [3:27:30<2:56:15, 3.16s/it]
{'loss': 0.7158, 'grad_norm': 5.03125, 'learning_rate': 2.308721892152762e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 354.28, 'epoch': 5.31}
53%|████████████████████████████████████████████████████ | 3790/7135 [3:27:30<2:56:15, 3.16s/it]
53%|████████████████████████████████████████████████████ | 3791/7135 [3:27:33<3:03:42, 3.30s/it]
53%|████████████████████████████████████████████████████ | 3792/7135 [3:27:37<3:08:25, 3.38s/it]
53%|████████████████████████████████████████████████████ | 3793/7135 [3:27:42<3:29:01, 3.75s/it]
53%|████████████████████████████████████████████████████ | 3794/7135 [3:27:45<3:20:13, 3.60s/it]
53%|████████████████████████████████████████████████████ | 3795/7135 [3:27:49<3:21:03, 3.61s/it]
53%|████████████████████████████████████████████████████▏ | 3796/7135 [3:27:52<3:13:50, 3.48s/it]
53%|████████████████████████████████████████████████████▏ | 3797/7135 [3:27:55<3:08:34, 3.39s/it]
53%|████████████████████████████████████████████████████▏ | 3798/7135 [3:27:58<3:03:40, 3.30s/it]
53%|████████████████████████████████████████████████████▏ | 3799/7135 [3:28:01<3:02:06, 3.28s/it]
53%|████████████████████████████████████████████████████▏ | 3800/7135 [3:28:04<3:01:54, 3.27s/it]
{'loss': 0.7733, 'grad_norm': 7.375, 'learning_rate': 2.29759240866924e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.69, 'epoch': 5.32}
53%|████████████████████████████████████████████████████▏ | 3800/7135 [3:28:04<3:01:54, 3.27s/it]
53%|████████████████████████████████████████████████████▏ | 3801/7135 [3:28:08<3:05:29, 3.34s/it]
53%|████████████████████████████████████████████████████▏ | 3802/7135 [3:28:11<3:02:59, 3.29s/it]
53%|████████████████████████████████████████████████████▏ | 3803/7135 [3:28:14<2:56:16, 3.17s/it]
53%|████████████████████████████████████████████████████▏ | 3804/7135 [3:28:17<2:55:09, 3.16s/it]
53%|████████████████████████████████████████████████████▎ | 3805/7135 [3:28:20<2:48:49, 3.04s/it]
53%|████████████████████████████████████████████████████▎ | 3806/7135 [3:28:23<2:57:44, 3.20s/it]
53%|████████████████████████████████████████████████████▎ | 3807/7135 [3:28:28<3:12:07, 3.46s/it]
53%|████████████████████████████████████████████████████▎ | 3808/7135 [3:28:31<3:03:51, 3.32s/it]
53%|████████████████████████████████████████████████████▎ | 3809/7135 [3:28:34<3:04:47, 3.33s/it]
53%|████████████████████████████████████████████████████▎ | 3810/7135 [3:28:37<2:56:59, 3.19s/it]
{'loss': 0.8153, 'grad_norm': 3.609375, 'learning_rate': 2.286466961617498e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 454.74, 'epoch': 5.34}
53%|████████████████████████████████████████████████████▎ | 3810/7135 [3:28:37<2:56:59, 3.19s/it]
53%|████████████████████████████████████████████████████▎ | 3811/7135 [3:28:40<2:57:31, 3.20s/it]
53%|████████████████████████████████████████████████████▎ | 3812/7135 [3:28:43<2:55:38, 3.17s/it]
53%|████████████████████████████████████████████████████▎ | 3813/7135 [3:28:46<2:57:20, 3.20s/it]
53%|████████████████████████████████████████████████████▍ | 3814/7135 [3:28:49<2:49:54, 3.07s/it]
53%|████████████████████████████████████████████████████▍ | 3815/7135 [3:28:53<2:56:14, 3.19s/it]
53%|████████████████████████████████████████████████████▍ | 3816/7135 [3:28:56<3:06:01, 3.36s/it]
53%|████████████████████████████████████████████████████▍ | 3817/7135 [3:28:59<2:58:50, 3.23s/it]
54%|████████████████████████████████████████████████████▍ | 3818/7135 [3:29:02<2:56:22, 3.19s/it]
54%|████████████████████████████████████████████████████▍ | 3819/7135 [3:29:06<2:58:43, 3.23s/it]
54%|████████████████████████████████████████████████████▍ | 3820/7135 [3:29:09<2:56:04, 3.19s/it]
{'loss': 0.7882, 'grad_norm': 3.984375, 'learning_rate': 2.2753457728622783e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 477.84, 'epoch': 5.35}
54%|████████████████████████████████████████████████████▍ | 3820/7135 [3:29:09<2:56:04, 3.19s/it]
54%|████████████████████████████████████████████████████▍ | 3821/7135 [3:29:12<2:57:17, 3.21s/it]
54%|████████████████████████████████████████████████████▍ | 3822/7135 [3:29:15<3:00:53, 3.28s/it]
54%|████████████████████████████████████████████████████▌ | 3823/7135 [3:29:19<2:59:21, 3.25s/it]
54%|████████████████████████████████████████████████████▌ | 3824/7135 [3:29:22<2:53:25, 3.14s/it]
54%|████████████████████████████████████████████████████▌ | 3825/7135 [3:29:25<2:51:43, 3.11s/it]
54%|████████████████████████████████████████████████████▌ | 3826/7135 [3:29:28<2:57:01, 3.21s/it]
54%|████████████████████████████████████████████████████▌ | 3827/7135 [3:29:31<2:58:12, 3.23s/it]
54%|████████████████████████████████████████████████████▌ | 3828/7135 [3:29:34<2:51:52, 3.12s/it]
54%|████████████████████████████████████████████████████▌ | 3829/7135 [3:29:38<2:58:14, 3.23s/it]
54%|████████████████████████████████████████████████████▌ | 3830/7135 [3:29:41<3:00:07, 3.27s/it]
{'loss': 0.6309, 'grad_norm': 4.34375, 'learning_rate': 2.264229064183405e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 365.38, 'epoch': 5.36}
54%|████████████████████████████████████████████████████▌ | 3830/7135 [3:29:41<3:00:07, 3.27s/it]
54%|████████████████████████████████████████████████████▌ | 3831/7135 [3:29:44<2:56:20, 3.20s/it]
54%|████████████████████████████████████████████████████▋ | 3832/7135 [3:29:47<2:52:26, 3.13s/it]
54%|████████████████████████████████████████████████████▋ | 3833/7135 [3:29:50<2:48:38, 3.06s/it]
54%|████████████████████████████████████████████████████▋ | 3834/7135 [3:29:53<2:47:23, 3.04s/it]
54%|████████████████████████████████████████████████████▋ | 3835/7135 [3:29:56<2:53:16, 3.15s/it]
54%|████████████████████████████████████████████████████▋ | 3836/7135 [3:29:59<2:45:40, 3.01s/it]
54%|████████████████████████████████████████████████████▋ | 3837/7135 [3:30:03<2:57:01, 3.22s/it]
54%|████████████████████████████████████████████████████▋ | 3838/7135 [3:30:06<2:50:37, 3.11s/it]
54%|████████████████████████████████████████████████████▋ | 3839/7135 [3:30:09<2:55:05, 3.19s/it]
54%|████████████████████████████████████████████████████▋ | 3840/7135 [3:30:12<2:51:33, 3.12s/it]
{'loss': 0.7617, 'grad_norm': 5.21875, 'learning_rate': 2.2531170572713563e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.28, 'epoch': 5.38}
54%|████████████████████████████████████████████████████▋ | 3840/7135 [3:30:12<2:51:33, 3.12s/it]
54%|████████████████████████████████████████████████████▊ | 3841/7135 [3:30:15<2:54:39, 3.18s/it]
54%|████████████████████████████████████████████████████▊ | 3842/7135 [3:30:18<2:48:36, 3.07s/it]
54%|████████████████████████████████████████████████████▊ | 3843/7135 [3:30:21<2:46:57, 3.04s/it]
54%|████████████████████████████████████████████████████▊ | 3844/7135 [3:30:24<2:52:48, 3.15s/it]
54%|████████████████████████████████████████████████████▊ | 3845/7135 [3:30:27<2:49:54, 3.10s/it]
54%|████████████████████████████████████████████████████▊ | 3846/7135 [3:30:30<2:46:10, 3.03s/it]
54%|████████████████████████████████████████████████████▊ | 3847/7135 [3:30:34<2:58:33, 3.26s/it]
54%|████████████████████████████████████████████████████▊ | 3848/7135 [3:30:37<2:56:04, 3.21s/it]
54%|████████████████████████████████████████████████████▊ | 3849/7135 [3:30:40<2:48:30, 3.08s/it]
54%|████████████████████████████████████████████████████▉ | 3850/7135 [3:30:43<2:53:55, 3.18s/it]
{'loss': 0.679, 'grad_norm': 3.328125, 'learning_rate': 2.2420099737228515e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 337.68, 'epoch': 5.39}
54%|████████████████████████████████████████████████████▉ | 3850/7135 [3:30:43<2:53:55, 3.18s/it]
54%|████████████████████████████████████████████████████▉ | 3851/7135 [3:30:46<2:49:31, 3.10s/it]
54%|████████████████████████████████████████████████████▉ | 3852/7135 [3:30:49<2:49:19, 3.09s/it]
54%|████████████████████████████████████████████████████▉ | 3853/7135 [3:30:52<2:45:17, 3.02s/it]
54%|████████████████████████████████████████████████████▉ | 3854/7135 [3:30:55<2:42:04, 2.96s/it]
54%|████████████████████████████████████████████████████▉ | 3855/7135 [3:30:58<2:38:54, 2.91s/it]
54%|████████████████████████████████████████████████████▉ | 3856/7135 [3:31:01<2:40:45, 2.94s/it]
54%|████████████████████████████████████████████████████▉ | 3857/7135 [3:31:04<2:44:24, 3.01s/it]
54%|████████████████████████████████████████████████████▉ | 3858/7135 [3:31:08<2:52:56, 3.17s/it]
54%|█████████████████████████████████████████████████████ | 3859/7135 [3:31:11<2:57:11, 3.25s/it]
54%|█████████████████████████████████████████████████████ | 3860/7135 [3:31:15<3:07:20, 3.43s/it]
{'loss': 0.7132, 'grad_norm': 2.09375, 'learning_rate': 2.2309080350364255e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.1, 'epoch': 5.41}
54%|█████████████████████████████████████████████████████ | 3860/7135 [3:31:15<3:07:20, 3.43s/it]
54%|█████████████████████████████████████████████████████ | 3861/7135 [3:31:18<3:00:42, 3.31s/it]
54%|█████████████████████████████████████████████████████ | 3862/7135 [3:31:21<2:59:55, 3.30s/it]
54%|█████████████████████████████████████████████████████ | 3863/7135 [3:31:25<3:01:20, 3.33s/it]
54%|█████████████████████████████████████████████████████ | 3864/7135 [3:31:27<2:52:17, 3.16s/it]
54%|█████████████████████████████████████████████████████ | 3865/7135 [3:31:30<2:49:40, 3.11s/it]
54%|█████████████████████████████████████████████████████ | 3866/7135 [3:31:33<2:47:01, 3.07s/it]
54%|█████████████████████████████████████████████████████ | 3867/7135 [3:31:36<2:45:44, 3.04s/it]
54%|█████████████████████████████████████████████████████▏ | 3868/7135 [3:31:41<3:07:31, 3.44s/it]
54%|█████████████████████████████████████████████████████▏ | 3869/7135 [3:31:43<2:53:34, 3.19s/it]
54%|█████████████████████████████████████████████████████▏ | 3870/7135 [3:31:47<2:57:06, 3.25s/it]
{'loss': 0.7273, 'grad_norm': 5.59375, 'learning_rate': 2.2198114626080127e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 410.1, 'epoch': 5.42}
54%|█████████████████████████████████████████████████████▏ | 3870/7135 [3:31:47<2:57:06, 3.25s/it]
54%|█████████████████████████████████████████████████████▏ | 3871/7135 [3:31:50<2:58:16, 3.28s/it]
54%|█████████████████████████████████████████████████████▏ | 3872/7135 [3:31:53<2:58:20, 3.28s/it]
54%|█████████████████████████████████████████████████████▏ | 3873/7135 [3:31:56<2:51:45, 3.16s/it]
54%|█████████████████████████████████████████████████████▏ | 3874/7135 [3:31:59<2:44:16, 3.02s/it]
54%|█████████████████████████████████████████████████████▏ | 3875/7135 [3:32:02<2:51:10, 3.15s/it]
54%|█████████████████████████████████████████████████████▏ | 3876/7135 [3:32:06<2:56:24, 3.25s/it]
54%|█████████████████████████████████████████████████████▎ | 3877/7135 [3:32:09<2:59:00, 3.30s/it]
54%|█████████████████████████████████████████████████████▎ | 3878/7135 [3:32:12<2:53:14, 3.19s/it]
54%|█████████████████████████████████████████████████████▎ | 3879/7135 [3:32:15<2:55:58, 3.24s/it]
54%|█████████████████████████████████████████████████████▎ | 3880/7135 [3:32:18<2:50:59, 3.15s/it]
{'loss': 0.6037, 'grad_norm': 5.25, 'learning_rate': 2.2087204777265376e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 433.4, 'epoch': 5.43}
54%|█████████████████████████████████████████████████████▎ | 3880/7135 [3:32:18<2:50:59, 3.15s/it]
54%|█████████████████████████████████████████████████████▎ | 3881/7135 [3:32:21<2:46:37, 3.07s/it]
54%|█████████████████████████████████████████████████████▎ | 3882/7135 [3:32:25<2:48:52, 3.11s/it]
54%|█████████████████████████████████████████████████████▎ | 3883/7135 [3:32:28<2:48:00, 3.10s/it]
54%|█████████████████████████████████████████████████████▎ | 3884/7135 [3:32:30<2:42:55, 3.01s/it]
54%|█████████████████████████████████████████████████████▎ | 3885/7135 [3:32:34<2:48:43, 3.12s/it]
54%|█████████████████████████████████████████████████████▎ | 3886/7135 [3:32:37<2:46:06, 3.07s/it]
54%|█████████████████████████████████████████████████████▍ | 3887/7135 [3:32:40<2:50:40, 3.15s/it]
54%|█████████████████████████████████████████████████████▍ | 3888/7135 [3:32:43<2:54:49, 3.23s/it]
55%|█████████████████████████████████████████████████████▍ | 3889/7135 [3:32:47<2:58:05, 3.29s/it]
55%|█████████████████████████████████████████████████████▍ | 3890/7135 [3:32:51<3:04:04, 3.40s/it]
{'loss': 0.7504, 'grad_norm': 2.21875, 'learning_rate': 2.1976353015694933e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 357.81, 'epoch': 5.45}
55%|█████████████████████████████████████████████████████▍ | 3890/7135 [3:32:51<3:04:04, 3.40s/it]
55%|█████████████████████████████████████████████████████▍ | 3891/7135 [3:32:53<2:54:01, 3.22s/it]
55%|█████████████████████████████████████████████████████▍ | 3892/7135 [3:32:56<2:50:14, 3.15s/it]
55%|█████████████████████████████████████████████████████▍ | 3893/7135 [3:33:00<2:50:33, 3.16s/it]
55%|█████████████████████████████████████████████████████▍ | 3894/7135 [3:33:03<2:50:15, 3.15s/it]
55%|█████████████████████████████████████████████████████▍ | 3895/7135 [3:33:06<2:55:10, 3.24s/it]
55%|█████████████████████████████████████████████████████▌ | 3896/7135 [3:33:09<2:48:29, 3.12s/it]
55%|█████████████████████████████████████████████████████▌ | 3897/7135 [3:33:12<2:45:05, 3.06s/it]
55%|█████████████████████████████████████████████████████▌ | 3898/7135 [3:33:15<2:44:43, 3.05s/it]
55%|█████████████████████████████████████████████████████▌ | 3899/7135 [3:33:18<2:51:10, 3.17s/it]
55%|█████████████████████████████████████████████████████▌ | 3900/7135 [3:33:22<2:58:47, 3.32s/it]
{'loss': 0.8804, 'grad_norm': 4.71875, 'learning_rate': 2.186556155198534e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.24, 'epoch': 5.46}
55%|█████████████████████████████████████████████████████▌ | 3900/7135 [3:33:22<2:58:47, 3.32s/it]
55%|█████████████████████████████████████████████████████▌ | 3901/7135 [3:33:25<2:56:37, 3.28s/it]
55%|█████████████████████████████████████████████████████▌ | 3902/7135 [3:33:29<3:12:51, 3.58s/it]
55%|█████████████████████████████████████████████████████▌ | 3903/7135 [3:33:33<3:14:32, 3.61s/it]
55%|█████████████████████████████████████████████████████▌ | 3904/7135 [3:33:37<3:16:42, 3.65s/it]
55%|█████████████████████████████████████████████████████▋ | 3905/7135 [3:33:40<3:04:51, 3.43s/it]
55%|█████████████████████████████████████████████████████▋ | 3906/7135 [3:33:43<2:56:40, 3.28s/it]
55%|█████████████████████████████████████████████████████▋ | 3907/7135 [3:33:46<2:57:05, 3.29s/it]
55%|█████████████████████████████████████████████████████▋ | 3908/7135 [3:33:49<2:53:10, 3.22s/it]
55%|█████████████████████████████████████████████████████▋ | 3909/7135 [3:33:53<2:56:39, 3.29s/it]
55%|█████████████████████████████████████████████████████▋ | 3910/7135 [3:33:56<2:51:33, 3.19s/it]
{'loss': 0.7641, 'grad_norm': 4.40625, 'learning_rate': 2.175483259555072e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 507.92, 'epoch': 5.48}
55%|█████████████████████████████████████████████████████▋ | 3910/7135 [3:33:56<2:51:33, 3.19s/it]
55%|█████████████████████████████████████████████████████▋ | 3911/7135 [3:33:59<2:56:32, 3.29s/it]
55%|█████████████████████████████████████████████████████▋ | 3912/7135 [3:34:03<3:09:53, 3.54s/it]
55%|█████████████████████████████████████████████████████▋ | 3913/7135 [3:34:06<3:02:58, 3.41s/it]
55%|█████████████████████████████████████████████████████▊ | 3914/7135 [3:34:09<2:56:40, 3.29s/it]
55%|█████████████████████████████████████████████████████▊ | 3915/7135 [3:34:13<2:55:56, 3.28s/it]
55%|█████████████████████████████████████████████████████▊ | 3916/7135 [3:34:15<2:49:15, 3.15s/it]
55%|█████████████████████████████████████████████████████▊ | 3917/7135 [3:34:19<2:49:25, 3.16s/it]
55%|█████████████████████████████████████████████████████▊ | 3918/7135 [3:34:22<2:48:20, 3.14s/it]
55%|█████████████████████████████████████████████████████▊ | 3919/7135 [3:34:25<2:53:42, 3.24s/it]
55%|█████████████████████████████████████████████████████▊ | 3920/7135 [3:34:29<2:58:04, 3.32s/it]
{'loss': 0.9561, 'grad_norm': 3.578125, 'learning_rate': 2.1644168354558623e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.72, 'epoch': 5.49}
55%|█████████████████████████████████████████████████████▊ | 3920/7135 [3:34:29<2:58:04, 3.32s/it]
55%|█████████████████████████████████████████████████████▊ | 3921/7135 [3:34:32<2:55:52, 3.28s/it]
55%|█████████████████████████████████████████████████████▊ | 3922/7135 [3:34:34<2:45:07, 3.08s/it]
55%|█████████████████████████████████████████████████████▉ | 3923/7135 [3:34:38<2:48:28, 3.15s/it]
55%|█████████████████████████████████████████████████████▉ | 3924/7135 [3:34:41<2:51:02, 3.20s/it]
55%|█████████████████████████████████████████████████████▉ | 3925/7135 [3:34:44<2:54:27, 3.26s/it]
55%|█████████████████████████████████████████████████████▉ | 3926/7135 [3:34:47<2:46:58, 3.12s/it]
55%|█████████████████████████████████████████████████████▉ | 3927/7135 [3:34:51<2:52:24, 3.22s/it]
55%|█████████████████████████████████████████████████████▉ | 3928/7135 [3:34:54<2:48:48, 3.16s/it]
55%|█████████████████████████████████████████████████████▉ | 3929/7135 [3:34:57<2:57:12, 3.32s/it]
55%|█████████████████████████████████████████████████████▉ | 3930/7135 [3:35:01<2:57:44, 3.33s/it]
{'loss': 0.8102, 'grad_norm': 4.75, 'learning_rate': 2.153357103588605e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.23, 'epoch': 5.5}
55%|█████████████████████████████████████████████████████▉ | 3930/7135 [3:35:01<2:57:44, 3.33s/it]
55%|█████████████████████████████████████████████████████▉ | 3931/7135 [3:35:04<3:02:21, 3.41s/it]
55%|██████████████████████████████████████████████████████ | 3932/7135 [3:35:08<3:04:09, 3.45s/it]
55%|██████████████████████████████████████████████████████ | 3933/7135 [3:35:11<2:58:02, 3.34s/it]
55%|██████████████████████████████████████████████████████ | 3934/7135 [3:35:14<2:54:13, 3.27s/it]
55%|██████████████████████████████████████████████████████ | 3935/7135 [3:35:17<2:50:10, 3.19s/it]
55%|██████████████████████████████████████████████████████ | 3936/7135 [3:35:20<2:50:11, 3.19s/it]
55%|██████████████████████████████████████████████████████ | 3937/7135 [3:35:23<2:46:30, 3.12s/it]
55%|██████████████████████████████████████████████████████ | 3938/7135 [3:35:27<2:48:26, 3.16s/it]
55%|██████████████████████████████████████████████████████ | 3939/7135 [3:35:29<2:40:09, 3.01s/it]
55%|██████████████████████████████████████████████████████ | 3940/7135 [3:35:32<2:41:54, 3.04s/it]
{'loss': 0.7312, 'grad_norm': 4.90625, 'learning_rate': 2.142304284507545e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.11, 'epoch': 5.52}
55%|██████████████████████████████████████████████████████ | 3940/7135 [3:35:32<2:41:54, 3.04s/it]
55%|██████████████████████████████████████████████████████▏ | 3941/7135 [3:35:35<2:42:05, 3.05s/it]
55%|██████████████████████████████████████████████████████▏ | 3942/7135 [3:35:38<2:37:22, 2.96s/it]
55%|██████████████████████████████████████████████████████▏ | 3943/7135 [3:35:42<2:48:33, 3.17s/it]
55%|██████████████████████████████████████████████████████▏ | 3944/7135 [3:35:45<2:46:35, 3.13s/it]
55%|██████████████████████████████████████████████████████▏ | 3945/7135 [3:35:48<2:43:33, 3.08s/it]
55%|██████████████████████████████████████████████████████▏ | 3946/7135 [3:35:51<2:48:36, 3.17s/it]
55%|██████████████████████████████████████████████████████▏ | 3947/7135 [3:35:55<2:55:53, 3.31s/it]
55%|██████████████████████████████████████████████████████▏ | 3948/7135 [3:35:58<2:53:23, 3.26s/it]
55%|██████████████████████████████████████████████████████▏ | 3949/7135 [3:36:01<2:46:52, 3.14s/it]
55%|██████████████████████████████████████████████████████▎ | 3950/7135 [3:36:04<2:53:13, 3.26s/it]
{'loss': 0.8788, 'grad_norm': 2.140625, 'learning_rate': 2.131258598629071e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 379.11, 'epoch': 5.53}
55%|██████████████████████████████████████████████████████▎ | 3950/7135 [3:36:04<2:53:13, 3.26s/it]
55%|██████████████████████████████████████████████████████▎ | 3951/7135 [3:36:07<2:51:11, 3.23s/it]
55%|██████████████████████████████████████████████████████▎ | 3952/7135 [3:36:11<2:50:41, 3.22s/it]
55%|██████████████████████████████████████████████████████▎ | 3953/7135 [3:36:14<2:47:16, 3.15s/it]
55%|██████████████████████████████████████████████████████▎ | 3954/7135 [3:36:17<2:45:54, 3.13s/it]
55%|██████████████████████████████████████████████████████▎ | 3955/7135 [3:36:20<2:50:46, 3.22s/it]
55%|██████████████████████████████████████████████████████▎ | 3956/7135 [3:36:23<2:50:14, 3.21s/it]
55%|██████████████████████████████████████████████████████▎ | 3957/7135 [3:36:27<2:48:33, 3.18s/it]
55%|██████████████████████████████████████████████████████▎ | 3958/7135 [3:36:29<2:43:41, 3.09s/it]
55%|██████████████████████████████████████████████████████▍ | 3959/7135 [3:36:33<2:49:55, 3.21s/it]
56%|██████████████████████████████████████████████████████▍ | 3960/7135 [3:36:36<2:54:22, 3.30s/it]
{'loss': 0.7294, 'grad_norm': 6.4375, 'learning_rate': 2.1202202662273183e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.07, 'epoch': 5.55}
56%|██████████████████████████████████████████████████████▍ | 3960/7135 [3:36:36<2:54:22, 3.30s/it]
56%|██████████████████████████████████████████████████████▍ | 3961/7135 [3:36:40<3:02:40, 3.45s/it]
56%|██████████████████████████████████████████████████████▍ | 3962/7135 [3:36:44<3:01:43, 3.44s/it]
56%|██████████████████████████████████████████████████████▍ | 3963/7135 [3:36:47<2:58:35, 3.38s/it]
56%|██████████████████████████████████████████████████████▍ | 3964/7135 [3:36:50<2:55:03, 3.31s/it]
56%|██████████████████████████████████████████████████████▍ | 3965/7135 [3:36:53<2:50:07, 3.22s/it]
56%|██████████████████████████████████████████████████████▍ | 3966/7135 [3:36:57<2:54:51, 3.31s/it]
56%|██████████████████████████████████████████████████████▍ | 3967/7135 [3:37:00<2:56:06, 3.34s/it]
56%|██████████████████████████████████████████████████████▌ | 3968/7135 [3:37:04<3:08:57, 3.58s/it]
56%|██████████████████████████████████████████████████████▌ | 3969/7135 [3:37:07<3:03:12, 3.47s/it]
56%|██████████████████████████████████████████████████████▌ | 3970/7135 [3:37:10<2:54:13, 3.30s/it]
{'loss': 0.777, 'grad_norm': 5.9375, 'learning_rate': 2.1091895074297814e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 548.65, 'epoch': 5.56}
56%|██████████████████████████████████████████████████████▌ | 3970/7135 [3:37:10<2:54:13, 3.30s/it]
56%|██████████████████████████████████████████████████████▌ | 3971/7135 [3:37:14<2:54:53, 3.32s/it]
56%|██████████████████████████████████████████████████████▌ | 3972/7135 [3:37:17<2:58:04, 3.38s/it]
56%|██████████████████████████████████████████████████████▌ | 3973/7135 [3:37:20<2:55:04, 3.32s/it]
56%|██████████████████████████████████████████████████████▌ | 3974/7135 [3:37:23<2:48:11, 3.19s/it]
56%|██████████████████████████████████████████████████████▌ | 3975/7135 [3:37:26<2:49:12, 3.21s/it]
56%|██████████████████████████████████████████████████████▌ | 3976/7135 [3:37:30<2:51:43, 3.26s/it]
56%|██████████████████████████████████████████████████████▌ | 3977/7135 [3:37:33<2:52:51, 3.28s/it]
56%|██████████████████████████████████████████████████████▋ | 3978/7135 [3:37:36<2:51:36, 3.26s/it]
56%|██████████████████████████████████████████████████████▋ | 3979/7135 [3:37:40<2:52:55, 3.29s/it]
56%|██████████████████████████████████████████████████████▋ | 3980/7135 [3:37:43<2:48:24, 3.20s/it]
{'loss': 0.6845, 'grad_norm': 3.984375, 'learning_rate': 2.0981665422129196e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 405.83, 'epoch': 5.57}
56%|██████████████████████████████████████████████████████▋ | 3980/7135 [3:37:43<2:48:24, 3.20s/it]
56%|██████████████████████████████████████████████████████▋ | 3981/7135 [3:37:46<2:51:58, 3.27s/it]
56%|██████████████████████████████████████████████████████▋ | 3982/7135 [3:37:49<2:48:49, 3.21s/it]
56%|██████████████████████████████████████████████████████▋ | 3983/7135 [3:37:53<2:51:07, 3.26s/it]
56%|██████████████████████████████████████████████████████▋ | 3984/7135 [3:37:56<2:46:57, 3.18s/it]
56%|██████████████████████████████████████████████████████▋ | 3985/7135 [3:37:59<2:47:34, 3.19s/it]
56%|██████████████████████████████████████████████████████▋ | 3986/7135 [3:38:02<2:45:02, 3.14s/it]
56%|██████████████████████████████████████████████████████▊ | 3987/7135 [3:38:05<2:51:12, 3.26s/it]
56%|██████████████████████████████████████████████████████▊ | 3988/7135 [3:38:08<2:44:57, 3.14s/it]
56%|██████████████████████████████████████████████████████▊ | 3989/7135 [3:38:11<2:42:04, 3.09s/it]
56%|██████████████████████████████████████████████████████▊ | 3990/7135 [3:38:15<2:47:08, 3.19s/it]
{'loss': 0.613, 'grad_norm': 3.84375, 'learning_rate': 2.0871515903977714e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 341.04, 'epoch': 5.59}
56%|██████████████████████████████████████████████████████▊ | 3990/7135 [3:38:15<2:47:08, 3.19s/it]
56%|██████████████████████████████████████████████████████▊ | 3991/7135 [3:38:18<2:44:06, 3.13s/it]
56%|██████████████████████████████████████████████████████▊ | 3992/7135 [3:38:21<2:47:58, 3.21s/it]
56%|██████████████████████████████████████████████████████▊ | 3993/7135 [3:38:25<2:54:55, 3.34s/it]
56%|██████████████████████████████████████████████████████▊ | 3994/7135 [3:38:28<2:49:20, 3.23s/it]
56%|██████████████████████████████████████████████████████▊ | 3995/7135 [3:38:31<2:49:48, 3.24s/it]
56%|██████████████████████████████████████████████████████▉ | 3996/7135 [3:38:34<2:52:45, 3.30s/it]
56%|██████████████████████████████████████████████████████▉ | 3997/7135 [3:38:37<2:48:46, 3.23s/it]
56%|██████████████████████████████████████████████████████▉ | 3998/7135 [3:38:41<2:55:08, 3.35s/it]
56%|██████████████████████████████████████████████████████▉ | 3999/7135 [3:38:44<2:54:09, 3.33s/it]
56%|██████████████████████████████████████████████████████▉ | 4000/7135 [3:38:48<2:55:28, 3.36s/it]
{'loss': 0.7933, 'grad_norm': 4.78125, 'learning_rate': 2.076144871645574e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 453.57, 'epoch': 5.6}
56%|██████████████████████████████████████████████████████▉ | 4000/7135 [3:38:48<2:55:28, 3.36s/it]
56%|██████████████████████████████████████████████████████▉ | 4001/7135 [3:38:51<2:54:06, 3.33s/it]
56%|██████████████████████████████████████████████████████▉ | 4002/7135 [3:38:54<2:47:08, 3.20s/it]
56%|██████████████████████████████████████████████████████▉ | 4003/7135 [3:38:57<2:51:23, 3.28s/it]
56%|██████████████████████████████████████████████████████▉ | 4004/7135 [3:39:00<2:43:21, 3.13s/it]
56%|███████████████████████████████████████████████████████ | 4005/7135 [3:39:04<2:51:42, 3.29s/it]
56%|███████████████████████████████████████████████████████ | 4006/7135 [3:39:07<2:54:19, 3.34s/it]
56%|███████████████████████████████████████████████████████ | 4007/7135 [3:39:11<2:57:12, 3.40s/it]
56%|███████████████████████████████████████████████████████ | 4008/7135 [3:39:14<2:49:57, 3.26s/it]
56%|███████████████████████████████████████████████████████ | 4009/7135 [3:39:17<2:52:11, 3.30s/it]
56%|███████████████████████████████████████████████████████ | 4010/7135 [3:39:20<2:47:57, 3.22s/it]
{'loss': 0.8294, 'grad_norm': 3.921875, 'learning_rate': 2.0651466054533777e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.88, 'epoch': 5.62}
56%|███████████████████████████████████████████████████████ | 4010/7135 [3:39:20<2:47:57, 3.22s/it]
56%|███████████████████████████████████████████████████████ | 4011/7135 [3:39:23<2:47:51, 3.22s/it]
56%|███████████████████████████████████████████████████████ | 4012/7135 [3:39:26<2:44:32, 3.16s/it]
56%|███████████████████████████████████████████████████████ | 4013/7135 [3:39:30<2:49:44, 3.26s/it]
56%|███████████████████████████████████████████████████████▏ | 4014/7135 [3:39:33<2:46:34, 3.20s/it]
56%|███████████████████████████████████████████████████████▏ | 4015/7135 [3:39:36<2:41:28, 3.11s/it]
56%|███████████████████████████████████████████████████████▏ | 4016/7135 [3:39:39<2:45:08, 3.18s/it]
56%|███████████████████████████████████████████████████████▏ | 4017/7135 [3:39:42<2:46:01, 3.19s/it]
56%|███████████████████████████████████████████████████████▏ | 4018/7135 [3:39:46<2:46:45, 3.21s/it]
56%|███████████████████████████████████████████████████████▏ | 4019/7135 [3:39:49<2:49:03, 3.26s/it]
56%|███████████████████████████████████████████████████████▏ | 4020/7135 [3:39:52<2:51:44, 3.31s/it]
{'loss': 0.7313, 'grad_norm': 5.59375, 'learning_rate': 2.0541570111496705e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.86, 'epoch': 5.63}
56%|███████████████████████████████████████████████████████▏ | 4020/7135 [3:39:53<2:51:44, 3.31s/it]
56%|███████████████████████████████████████████████████████▏ | 4021/7135 [3:39:56<2:59:20, 3.46s/it]
56%|███████████████████████████████████████████████████████▏ | 4022/7135 [3:39:59<2:55:50, 3.39s/it]
56%|███████████████████████████████████████████████████████▎ | 4023/7135 [3:40:03<2:58:04, 3.43s/it]
56%|███████████████████████████████████████████████████████▎ | 4024/7135 [3:40:06<2:51:17, 3.30s/it]
56%|███████████████████████████████████████████████████████▎ | 4025/7135 [3:40:09<2:44:41, 3.18s/it]
56%|███████████████████████████████████████████████████████▎ | 4026/7135 [3:40:13<2:51:19, 3.31s/it]
56%|███████████████████████████████████████████████████████▎ | 4027/7135 [3:40:15<2:44:59, 3.19s/it]
56%|███████████████████████████████████████████████████████▎ | 4028/7135 [3:40:19<2:46:10, 3.21s/it]
56%|███████████████████████████████████████████████████████▎ | 4029/7135 [3:40:22<2:42:00, 3.13s/it]
56%|███████████████████████████████████████████████████████▎ | 4030/7135 [3:40:25<2:40:25, 3.10s/it]
{'loss': 0.7232, 'grad_norm': 4.125, 'learning_rate': 2.0431763078900075e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.34, 'epoch': 5.64}
56%|███████████████████████████████████████████████████████▎ | 4030/7135 [3:40:25<2:40:25, 3.10s/it]
56%|███████████████████████████████████████████████████████▎ | 4031/7135 [3:40:28<2:45:02, 3.19s/it]
57%|███████████████████████████████████████████████████████▍ | 4032/7135 [3:40:32<3:00:34, 3.49s/it]
57%|███████████████████████████████████████████████████████▍ | 4033/7135 [3:40:35<2:53:17, 3.35s/it]
57%|███████████████████████████████████████████████████████▍ | 4034/7135 [3:40:38<2:50:59, 3.31s/it]
57%|███████████████████████████████████████████████████████▍ | 4035/7135 [3:40:42<2:50:45, 3.31s/it]
57%|███████████████████████████████████████████████████████▍ | 4036/7135 [3:40:45<2:52:54, 3.35s/it]
57%|███████████████████████████████████████████████████████▍ | 4037/7135 [3:40:49<2:58:00, 3.45s/it]
57%|███████████████████████████████████████████████████████▍ | 4038/7135 [3:40:52<2:59:13, 3.47s/it]
57%|███████████████████████████████████████████████████████▍ | 4039/7135 [3:40:55<2:45:43, 3.21s/it]
57%|███████████████████████████████████████████████████████▍ | 4040/7135 [3:40:58<2:36:46, 3.04s/it]
{'loss': 0.8707, 'grad_norm': 5.28125, 'learning_rate': 2.032204714652635e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.27, 'epoch': 5.66}
57%|███████████████████████████████████████████████████████▍ | 4040/7135 [3:40:58<2:36:46, 3.04s/it]
57%|███████████████████████████████████████████████████████▌ | 4041/7135 [3:41:01<2:38:42, 3.08s/it]
57%|███████████████████████████████████████████████████████▌ | 4042/7135 [3:41:04<2:36:32, 3.04s/it]
57%|███████████████████████████████████████████████████████▌ | 4043/7135 [3:41:07<2:36:44, 3.04s/it]
57%|███████████████████████████████████████████████████████▌ | 4044/7135 [3:41:10<2:45:04, 3.20s/it]
57%|███████████████████████████████████████████████████████▌ | 4045/7135 [3:41:14<2:49:44, 3.30s/it]
57%|███████████████████████████████████████████████████████▌ | 4046/7135 [3:41:17<2:50:39, 3.31s/it]
57%|███████████████████████████████████████████████████████▌ | 4047/7135 [3:41:20<2:43:42, 3.18s/it]
57%|███████████████████████████████████████████████████████▌ | 4048/7135 [3:41:23<2:44:19, 3.19s/it]
57%|███████████████████████████████████████████████████████▌ | 4049/7135 [3:41:27<2:45:49, 3.22s/it]
57%|███████████████████████████████████████████████████████▋ | 4050/7135 [3:41:30<2:48:21, 3.27s/it]
{'loss': 0.8182, 'grad_norm': 4.0625, 'learning_rate': 2.0212424502341265e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.98, 'epoch': 5.67}
57%|███████████████████████████████████████████████████████▋ | 4050/7135 [3:41:30<2:48:21, 3.27s/it]
57%|███████████████████████████████████████████████████████▋ | 4051/7135 [3:41:33<2:48:00, 3.27s/it]
57%|███████████████████████████████████████████████████████▋ | 4052/7135 [3:41:37<2:46:39, 3.24s/it]
57%|███████████████████████████████████████████████████████▋ | 4053/7135 [3:41:40<2:43:37, 3.19s/it]
57%|███████████████████████████████████████████████████████▋ | 4054/7135 [3:41:43<2:41:07, 3.14s/it]
57%|███████████████████████████████████████████████████████▋ | 4055/7135 [3:41:47<2:54:01, 3.39s/it]
57%|███████████████████████████████████████████████████████▋ | 4056/7135 [3:41:50<2:57:09, 3.45s/it]
57%|███████████████████████████████████████████████████████▋ | 4057/7135 [3:41:53<2:50:56, 3.33s/it]
57%|███████████████████████████████████████████████████████▋ | 4058/7135 [3:41:56<2:49:46, 3.31s/it]
57%|███████████████████████████████████████████████████████▊ | 4059/7135 [3:41:59<2:41:16, 3.15s/it]
57%|███████████████████████████████████████████████████████▊ | 4060/7135 [3:42:03<2:43:29, 3.19s/it]
{'loss': 0.8858, 'grad_norm': 5.0625, 'learning_rate': 2.010289733245023e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.23, 'epoch': 5.69}
57%|███████████████████████████████████████████████████████▊ | 4060/7135 [3:42:03<2:43:29, 3.19s/it]
57%|███████████████████████████████████████████████████████▊ | 4061/7135 [3:42:05<2:39:35, 3.12s/it]
57%|███████████████████████████████████████████████████████▊ | 4062/7135 [3:42:09<2:41:07, 3.15s/it]
57%|███████████████████████████████████████████████████████▊ | 4063/7135 [3:42:12<2:49:43, 3.32s/it]
57%|███████████████████████████████████████████████████████▊ | 4064/7135 [3:42:17<3:04:42, 3.61s/it]
57%|███████████████████████████████████████████████████████▊ | 4065/7135 [3:42:20<3:06:06, 3.64s/it]
57%|███████████████████████████████████████████████████████▊ | 4066/7135 [3:42:23<2:57:37, 3.47s/it]
57%|███████████████████████████████████████████████████████▊ | 4067/7135 [3:42:27<2:52:12, 3.37s/it]
57%|███████████████████████████████████████████████████████▊ | 4068/7135 [3:42:30<2:56:05, 3.45s/it]
57%|███████████████████████████████████████████████████████▉ | 4069/7135 [3:42:33<2:51:32, 3.36s/it]
57%|███████████████████████████████████████████████████████▉ | 4070/7135 [3:42:37<2:48:31, 3.30s/it]
{'loss': 0.7468, 'grad_norm': 4.3125, 'learning_rate': 1.9993467821054646e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 431.91, 'epoch': 5.7}
57%|███████████████████████████████████████████████████████▉ | 4070/7135 [3:42:37<2:48:31, 3.30s/it]
57%|███████████████████████████████████████████████████████▉ | 4071/7135 [3:42:40<2:43:55, 3.21s/it]
57%|███████████████████████████████████████████████████████▉ | 4072/7135 [3:42:43<2:49:34, 3.32s/it]
57%|███████████████████████████████████████████████████████▉ | 4073/7135 [3:42:46<2:45:52, 3.25s/it]
57%|███████████████████████████████████████████████████████▉ | 4074/7135 [3:42:50<2:47:35, 3.29s/it]
57%|███████████████████████████████████████████████████████▉ | 4075/7135 [3:42:53<2:52:07, 3.37s/it]
57%|███████████████████████████████████████████████████████▉ | 4076/7135 [3:42:56<2:41:19, 3.16s/it]
57%|███████████████████████████████████████████████████████▉ | 4077/7135 [3:42:59<2:46:49, 3.27s/it]
57%|████████████████████████████████████████████████████████ | 4078/7135 [3:43:02<2:42:50, 3.20s/it]
57%|████████████████████████████████████████████████████████ | 4079/7135 [3:43:06<2:46:59, 3.28s/it]
57%|████████████████████████████████████████████████████████ | 4080/7135 [3:43:09<2:40:06, 3.14s/it]
{'loss': 0.6868, 'grad_norm': 6.875, 'learning_rate': 1.988413815040844e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 403.95, 'epoch': 5.71}
57%|████████████████████████████████████████████████████████ | 4080/7135 [3:43:09<2:40:06, 3.14s/it]
57%|████████████████████████████████████████████████████████ | 4081/7135 [3:43:12<2:46:04, 3.26s/it]
57%|████████████████████████████████████████████████████████ | 4082/7135 [3:43:15<2:44:14, 3.23s/it]
57%|████████████████████████████████████████████████████████ | 4083/7135 [3:43:19<2:51:53, 3.38s/it]
57%|████████████████████████████████████████████████████████ | 4084/7135 [3:43:22<2:42:28, 3.20s/it]
57%|████████████████████████████████████████████████████████ | 4085/7135 [3:43:25<2:41:09, 3.17s/it]
57%|████████████████████████████████████████████████████████ | 4086/7135 [3:43:28<2:35:51, 3.07s/it]
57%|████████████████████████████████████████████████████████▏ | 4087/7135 [3:43:31<2:34:00, 3.03s/it]
57%|████████████████████████████████████████████████████████▏ | 4088/7135 [3:43:34<2:33:39, 3.03s/it]
57%|████████████████████████████████████████████████████████▏ | 4089/7135 [3:43:37<2:34:49, 3.05s/it]
57%|████████████████████████████████████████████████████████▏ | 4090/7135 [3:43:40<2:40:18, 3.16s/it]
{'loss': 0.836, 'grad_norm': 3.046875, 'learning_rate': 1.9774910500774472e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.85, 'epoch': 5.73}
57%|████████████████████████████████████████████████████████▏ | 4090/7135 [3:43:40<2:40:18, 3.16s/it]
57%|████████████████████████████████████████████████████████▏ | 4091/7135 [3:43:43<2:39:59, 3.15s/it]
57%|████████████████████████████████████████████████████████▏ | 4092/7135 [3:43:47<2:40:01, 3.16s/it]
57%|████████████████████████████████████████████████████████▏ | 4093/7135 [3:43:50<2:36:16, 3.08s/it]
57%|████████████████████████████████████████████████████████▏ | 4094/7135 [3:43:53<2:38:19, 3.12s/it]
57%|████████████████████████████████████████████████████████▏ | 4095/7135 [3:43:56<2:41:26, 3.19s/it]
57%|████████████████████████████████████████████████████████▎ | 4096/7135 [3:43:59<2:43:45, 3.23s/it]
57%|████████████████████████████████████████████████████████▎ | 4097/7135 [3:44:02<2:35:23, 3.07s/it]
57%|████████████████████████████████████████████████████████▎ | 4098/7135 [3:44:05<2:33:53, 3.04s/it]
57%|████████████████████████████████████████████████████████▎ | 4099/7135 [3:44:08<2:36:02, 3.08s/it]
57%|████████████████████████████████████████████████████████▎ | 4100/7135 [3:44:11<2:35:39, 3.08s/it]
{'loss': 0.8207, 'grad_norm': 5.59375, 'learning_rate': 1.9665787050381102e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.13, 'epoch': 5.74}
57%|████████████████████████████████████████████████████████▎ | 4100/7135 [3:44:11<2:35:39, 3.08s/it]
57%|████████████████████████████████████████████████████████▎ | 4101/7135 [3:44:14<2:35:55, 3.08s/it]
57%|████████████████████████████████████████████████████████▎ | 4102/7135 [3:44:17<2:35:56, 3.09s/it]
58%|████████████████████████████████████████████████████████▎ | 4103/7135 [3:44:21<2:38:09, 3.13s/it]
58%|████████████████████████████████████████████████████████▎ | 4104/7135 [3:44:24<2:35:32, 3.08s/it]
58%|████████████████████████████████████████████████████████▍ | 4105/7135 [3:44:26<2:30:02, 2.97s/it]
58%|████████████████████████████████████████████████████████▍ | 4106/7135 [3:44:29<2:26:21, 2.90s/it]
58%|████████████████████████████████████████████████████████▍ | 4107/7135 [3:44:32<2:31:03, 2.99s/it]
58%|████████████████████████████████████████████████████████▍ | 4108/7135 [3:44:35<2:29:51, 2.97s/it]
58%|████████████████████████████████████████████████████████▍ | 4109/7135 [3:44:39<2:38:13, 3.14s/it]
58%|████████████████████████████████████████████████████████▍ | 4110/7135 [3:44:42<2:40:41, 3.19s/it]
{'loss': 0.7345, 'grad_norm': 5.65625, 'learning_rate': 1.9556769975378766e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 337.95, 'epoch': 5.76}
58%|████████████████████████████████████████████████████████▍ | 4110/7135 [3:44:42<2:40:41, 3.19s/it]
58%|████████████████████████████████████████████████████████▍ | 4111/7135 [3:44:45<2:39:39, 3.17s/it]
58%|████████████████████████████████████████████████████████▍ | 4112/7135 [3:44:49<2:44:56, 3.27s/it]
58%|████████████████████████████████████████████████████████▍ | 4113/7135 [3:44:52<2:45:02, 3.28s/it]
58%|████████████████████████████████████████████████████████▌ | 4114/7135 [3:44:56<2:55:56, 3.49s/it]
58%|████████████████████████████████████████████████████████▌ | 4115/7135 [3:44:59<2:51:38, 3.41s/it]
58%|████████████████████████████████████████████████████████▌ | 4116/7135 [3:45:02<2:42:44, 3.23s/it]
58%|████████████████████████████████████████████████████████▌ | 4117/7135 [3:45:05<2:42:47, 3.24s/it]
58%|████████████████████████████████████████████████████████▌ | 4118/7135 [3:45:09<2:43:36, 3.25s/it]
58%|████████████████████████████████████████████████████████▌ | 4119/7135 [3:45:12<2:41:30, 3.21s/it]
58%|████████████████████████████████████████████████████████▌ | 4120/7135 [3:45:15<2:38:26, 3.15s/it]
{'loss': 0.7105, 'grad_norm': 4.625, 'learning_rate': 1.9447861449796505e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 372.03, 'epoch': 5.77}
58%|████████████████████████████████████████████████████████▌ | 4120/7135 [3:45:15<2:38:26, 3.15s/it]
58%|████████████████████████████████████████████████████████▌ | 4121/7135 [3:45:18<2:37:57, 3.14s/it]
58%|████████████████████████████████████████████████████████▌ | 4122/7135 [3:45:22<2:45:41, 3.30s/it]
58%|████████████████████████████████████████████████████████▋ | 4123/7135 [3:45:25<2:46:09, 3.31s/it]
58%|████████████████████████████████████████████████████████▋ | 4124/7135 [3:45:28<2:40:00, 3.19s/it]
58%|████████████████████████████████████████████████████████▋ | 4125/7135 [3:45:32<2:50:28, 3.40s/it]
58%|████████████████████████████████████████████████████████▋ | 4126/7135 [3:45:35<2:51:47, 3.43s/it]
58%|████████████████████████████████████████████████████████▋ | 4127/7135 [3:45:38<2:44:50, 3.29s/it]
58%|████████████████████████████████████████████████████████▋ | 4128/7135 [3:45:41<2:43:33, 3.26s/it]
58%|████████████████████████████████████████████████████████▋ | 4129/7135 [3:45:45<2:43:59, 3.27s/it]
58%|████████████████████████████████████████████████████████▋ | 4130/7135 [3:45:48<2:48:07, 3.36s/it]
{'loss': 0.7282, 'grad_norm': 4.03125, 'learning_rate': 1.9339063645498676e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 341.86, 'epoch': 5.78}
58%|████████████████████████████████████████████████████████▋ | 4130/7135 [3:45:48<2:48:07, 3.36s/it]
58%|████████████████████████████████████████████████████████▋ | 4131/7135 [3:45:51<2:42:43, 3.25s/it]
58%|████████████████████████████████████████████████████████▊ | 4132/7135 [3:45:54<2:41:19, 3.22s/it]
58%|████████████████████████████████████████████████████████▊ | 4133/7135 [3:45:57<2:35:16, 3.10s/it]
58%|████████████████████████████████████████████████████████▊ | 4134/7135 [3:46:00<2:38:28, 3.17s/it]
58%|████████████████████████████████████████████████████████▊ | 4135/7135 [3:46:03<2:33:55, 3.08s/it]
58%|████████████████████████████████████████████████████████▊ | 4136/7135 [3:46:06<2:33:06, 3.06s/it]
58%|████████████████████████████████████████████████████████▊ | 4137/7135 [3:46:09<2:31:40, 3.04s/it]
58%|████████████████████████████████████████████████████████▊ | 4138/7135 [3:46:12<2:28:49, 2.98s/it]
58%|████████████████████████████████████████████████████████▊ | 4139/7135 [3:46:16<2:35:19, 3.11s/it]
58%|████████████████████████████████████████████████████████▊ | 4140/7135 [3:46:19<2:33:18, 3.07s/it]
{'loss': 0.7623, 'grad_norm': 4.625, 'learning_rate': 1.923037873214165e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.37, 'epoch': 5.8}
58%|████████████████████████████████████████████████████████▊ | 4140/7135 [3:46:19<2:33:18, 3.07s/it]
58%|████████████████████████████████████████████████████████▉ | 4141/7135 [3:46:22<2:31:30, 3.04s/it]
58%|████████████████████████████████████████████████████████▉ | 4142/7135 [3:46:25<2:33:42, 3.08s/it]
58%|████████████████████████████████████████████████████████▉ | 4143/7135 [3:46:28<2:33:04, 3.07s/it]
58%|████████████████████████████████████████████████████████▉ | 4144/7135 [3:46:31<2:32:20, 3.06s/it]
58%|████████████████████████████████████████████████████████▉ | 4145/7135 [3:46:34<2:40:59, 3.23s/it]
58%|████████████████████████████████████████████████████████▉ | 4146/7135 [3:46:38<2:41:50, 3.25s/it]
58%|████████████████████████████████████████████████████████▉ | 4147/7135 [3:46:41<2:39:46, 3.21s/it]
58%|████████████████████████████████████████████████████████▉ | 4148/7135 [3:46:44<2:36:54, 3.15s/it]
58%|████████████████████████████████████████████████████████▉ | 4149/7135 [3:46:48<2:46:07, 3.34s/it]
58%|█████████████████████████████████████████████████████████ | 4150/7135 [3:46:51<2:42:54, 3.27s/it]
{'loss': 0.7708, 'grad_norm': 4.84375, 'learning_rate': 1.9121808877130475e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.48, 'epoch': 5.81}
58%|█████████████████████████████████████████████████████████ | 4150/7135 [3:46:51<2:42:54, 3.27s/it]
58%|█████████████████████████████████████████████████████████ | 4151/7135 [3:46:54<2:44:32, 3.31s/it]
58%|█████████████████████████████████████████████████████████ | 4152/7135 [3:46:58<2:57:56, 3.58s/it]
58%|█████████████████████████████████████████████████████████ | 4153/7135 [3:47:01<2:48:34, 3.39s/it]
58%|█████████████████████████████████████████████████████████ | 4154/7135 [3:47:05<2:45:40, 3.33s/it]
58%|█████████████████████████████████████████████████████████ | 4155/7135 [3:47:08<2:40:43, 3.24s/it]
58%|█████████████████████████████████████████████████████████ | 4156/7135 [3:47:11<2:38:22, 3.19s/it]
58%|█████████████████████████████████████████████████████████ | 4157/7135 [3:47:13<2:32:51, 3.08s/it]
58%|█████████████████████████████████████████████████████████ | 4158/7135 [3:47:16<2:29:09, 3.01s/it]
58%|█████████████████████████████████████████████████████████ | 4159/7135 [3:47:20<2:36:25, 3.15s/it]
58%|█████████████████████████████████████████████████████████▏ | 4160/7135 [3:47:23<2:32:03, 3.07s/it]
{'loss': 0.7986, 'grad_norm': 5.46875, 'learning_rate': 1.9013356245575693e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.86, 'epoch': 5.83}
58%|█████████████████████████████████████████████████████████▏ | 4160/7135 [3:47:23<2:32:03, 3.07s/it]
58%|█████████████████████████████████████████████████████████▏ | 4161/7135 [3:47:26<2:32:36, 3.08s/it]
58%|█████████████████████████████████████████████████████████▏ | 4162/7135 [3:47:29<2:33:36, 3.10s/it]
58%|█████████████████████████████████████████████████████████▏ | 4163/7135 [3:47:33<2:44:28, 3.32s/it]
58%|█████████████████████████████████████████████████████████▏ | 4164/7135 [3:47:36<2:40:50, 3.25s/it]
58%|█████████████████████████████████████████████████████████▏ | 4165/7135 [3:47:39<2:33:42, 3.11s/it]
58%|█████████████████████████████████████████████████████████▏ | 4166/7135 [3:47:42<2:32:09, 3.07s/it]
58%|█████████████████████████████████████████████████████████▏ | 4167/7135 [3:47:44<2:26:45, 2.97s/it]
58%|█████████████████████████████████████████████████████████▏ | 4168/7135 [3:47:47<2:27:29, 2.98s/it]
58%|█████████████████████████████████████████████████████████▎ | 4169/7135 [3:47:50<2:26:54, 2.97s/it]
58%|█████████████████████████████████████████████████████████▎ | 4170/7135 [3:47:54<2:34:08, 3.12s/it]
{'loss': 0.7791, 'grad_norm': 4.875, 'learning_rate': 1.8905023000250207e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.65, 'epoch': 5.84}
58%|█████████████████████████████████████████████████████████▎ | 4170/7135 [3:47:54<2:34:08, 3.12s/it]
58%|█████████████████████████████████████████████████████████▎ | 4171/7135 [3:47:57<2:34:44, 3.13s/it]
58%|█████████████████████████████████████████████████████████▎ | 4172/7135 [3:48:00<2:34:34, 3.13s/it]
58%|█████████████████████████████████████████████████████████▎ | 4173/7135 [3:48:04<2:41:23, 3.27s/it]
59%|█████████████████████████████████████████████████████████▎ | 4174/7135 [3:48:07<2:36:49, 3.18s/it]
59%|█████████████████████████████████████████████████████████▎ | 4175/7135 [3:48:10<2:41:47, 3.28s/it]
59%|█████████████████████████████████████████████████████████▎ | 4176/7135 [3:48:13<2:39:48, 3.24s/it]
59%|█████████████████████████████████████████████████████████▎ | 4177/7135 [3:48:17<2:41:06, 3.27s/it]
59%|█████████████████████████████████████████████████████████▍ | 4178/7135 [3:48:20<2:39:55, 3.25s/it]
59%|█████████████████████████████████████████████████████████▍ | 4179/7135 [3:48:23<2:46:59, 3.39s/it]
59%|█████████████████████████████████████████████████████████▍ | 4180/7135 [3:48:27<2:52:52, 3.51s/it]
{'loss': 0.7329, 'grad_norm': 5.875, 'learning_rate': 1.8796811301546076e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 345.71, 'epoch': 5.86}
59%|█████████████████████████████████████████████████████████▍ | 4180/7135 [3:48:27<2:52:52, 3.51s/it]
59%|█████████████████████████████████████████████████████████▍ | 4181/7135 [3:48:30<2:46:38, 3.38s/it]
59%|█████████████████████████████████████████████████████████▍ | 4182/7135 [3:48:34<2:44:46, 3.35s/it]
59%|█████████████████████████████████████████████████████████▍ | 4183/7135 [3:48:36<2:37:04, 3.19s/it]
59%|█████████████████████████████████████████████████████████▍ | 4184/7135 [3:48:41<2:52:59, 3.52s/it]
59%|█████████████████████████████████████████████████████████▍ | 4185/7135 [3:48:43<2:40:28, 3.26s/it]
59%|█████████████████████████████████████████████████████████▍ | 4186/7135 [3:48:47<2:42:33, 3.31s/it]
59%|█████████████████████████████████████████████████████████▌ | 4187/7135 [3:48:50<2:40:07, 3.26s/it]
59%|█████████████████████████████████████████████████████████▌ | 4188/7135 [3:48:53<2:44:15, 3.34s/it]
59%|█████████████████████████████████████████████████████████▌ | 4189/7135 [3:48:57<2:42:28, 3.31s/it]
59%|█████████████████████████████████████████████████████████▌ | 4190/7135 [3:49:00<2:41:42, 3.29s/it]
{'loss': 0.7166, 'grad_norm': 5.1875, 'learning_rate': 1.8688723307431456e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 357.42, 'epoch': 5.87}
59%|█████████████████████████████████████████████████████████▌ | 4190/7135 [3:49:00<2:41:42, 3.29s/it]
59%|█████████████████████████████████████████████████████████▌ | 4191/7135 [3:49:03<2:41:56, 3.30s/it]
59%|█████████████████████████████████████████████████████████▌ | 4192/7135 [3:49:06<2:34:24, 3.15s/it]
59%|█████████████████████████████████████████████████████████▌ | 4193/7135 [3:49:09<2:34:18, 3.15s/it]
59%|█████████████████████████████████████████████████████████▌ | 4194/7135 [3:49:12<2:34:44, 3.16s/it]
59%|█████████████████████████████████████████████████████████▌ | 4195/7135 [3:49:16<2:35:00, 3.16s/it]
59%|█████████████████████████████████████████████████████████▋ | 4196/7135 [3:49:19<2:38:46, 3.24s/it]
59%|█████████████████████████████████████████████████████████▋ | 4197/7135 [3:49:23<2:48:01, 3.43s/it]
59%|█████████████████████████████████████████████████████████▋ | 4198/7135 [3:49:26<2:44:06, 3.35s/it]
59%|█████████████████████████████████████████████████████████▋ | 4199/7135 [3:49:29<2:40:10, 3.27s/it]
59%|█████████████████████████████████████████████████████████▋ | 4200/7135 [3:49:32<2:39:30, 3.26s/it]
{'loss': 0.6972, 'grad_norm': 3.984375, 'learning_rate': 1.8580761173407617e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 384.09, 'epoch': 5.88}
59%|█████████████████████████████████████████████████████████▋ | 4200/7135 [3:49:32<2:39:30, 3.26s/it]
59%|█████████████████████████████████████████████████████████▋ | 4201/7135 [3:49:35<2:32:30, 3.12s/it]
59%|█████████████████████████████████████████████████████████▋ | 4202/7135 [3:49:39<2:35:49, 3.19s/it]
59%|█████████████████████████████████████████████████████████▋ | 4203/7135 [3:49:41<2:30:13, 3.07s/it]
59%|█████████████████████████████████████████████████████████▋ | 4204/7135 [3:49:45<2:33:49, 3.15s/it]
59%|█████████████████████████████████████████████████████████▊ | 4205/7135 [3:49:48<2:31:51, 3.11s/it]
59%|█████████████████████████████████████████████████████████▊ | 4206/7135 [3:49:51<2:33:06, 3.14s/it]
59%|█████████████████████████████████████████████████████████▊ | 4207/7135 [3:49:54<2:39:39, 3.27s/it]
59%|█████████████████████████████████████████████████████████▊ | 4208/7135 [3:49:58<2:39:46, 3.28s/it]
59%|█████████████████████████████████████████████████████████▊ | 4209/7135 [3:50:01<2:37:55, 3.24s/it]
59%|█████████████████████████████████████████████████████████▊ | 4210/7135 [3:50:04<2:31:04, 3.10s/it]
{'loss': 0.7268, 'grad_norm': 5.90625, 'learning_rate': 1.8472927052465863e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.92, 'epoch': 5.9}
59%|█████████████████████████████████████████████████████████▊ | 4210/7135 [3:50:04<2:31:04, 3.10s/it]
59%|█████████████████████████████████████████████████████████▊ | 4211/7135 [3:50:07<2:30:28, 3.09s/it]
59%|█████████████████████████████████████████████████████████▊ | 4212/7135 [3:50:10<2:36:09, 3.21s/it]
59%|█████████████████████████████████████████████████████████▊ | 4213/7135 [3:50:14<2:38:29, 3.25s/it]
59%|█████████████████████████████████████████████████████████▉ | 4214/7135 [3:50:17<2:37:00, 3.23s/it]
59%|█████████████████████████████████████████████████████████▉ | 4215/7135 [3:50:20<2:35:39, 3.20s/it]
59%|█████████████████████████████████████████████████████████▉ | 4216/7135 [3:50:23<2:39:21, 3.28s/it]
59%|█████████████████████████████████████████████████████████▉ | 4217/7135 [3:50:27<2:45:27, 3.40s/it]
59%|█████████████████████████████████████████████████████████▉ | 4218/7135 [3:50:31<2:55:36, 3.61s/it]
59%|█████████████████████████████████████████████████████████▉ | 4219/7135 [3:50:34<2:49:26, 3.49s/it]
59%|█████████████████████████████████████████████████████████▉ | 4220/7135 [3:50:38<2:48:57, 3.48s/it]
{'loss': 0.6935, 'grad_norm': 5.8125, 'learning_rate': 1.836522309504467e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.78, 'epoch': 5.91}
59%|█████████████████████████████████████████████████████████▉ | 4220/7135 [3:50:38<2:48:57, 3.48s/it]
59%|█████████████████████████████████████████████████████████▉ | 4221/7135 [3:50:41<2:40:13, 3.30s/it]
59%|█████████████████████████████████████████████████████████▉ | 4222/7135 [3:50:44<2:34:20, 3.18s/it]
59%|██████████████████████████████████████████████████████████ | 4223/7135 [3:50:47<2:35:40, 3.21s/it]
59%|██████████████████████████████████████████████████████████ | 4224/7135 [3:50:50<2:33:27, 3.16s/it]
59%|██████████████████████████████████████████████████████████ | 4225/7135 [3:50:53<2:28:15, 3.06s/it]
59%|██████████████████████████████████████████████████████████ | 4226/7135 [3:50:57<2:44:27, 3.39s/it]
59%|██████████████████████████████████████████████████████████ | 4227/7135 [3:50:59<2:31:34, 3.13s/it]
59%|██████████████████████████████████████████████████████████ | 4228/7135 [3:51:02<2:27:03, 3.04s/it]
59%|██████████████████████████████████████████████████████████ | 4229/7135 [3:51:05<2:30:59, 3.12s/it]
59%|██████████████████████████████████████████████████████████ | 4230/7135 [3:51:09<2:31:17, 3.12s/it]
{'loss': 0.6788, 'grad_norm': 5.65625, 'learning_rate': 1.8257651448986807e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 514.37, 'epoch': 5.93}
59%|██████████████████████████████████████████████████████████ | 4230/7135 [3:51:09<2:31:17, 3.12s/it]
59%|██████████████████████████████████████████████████████████ | 4231/7135 [3:51:13<2:45:33, 3.42s/it]
59%|██████████████████████████████████████████████████████████▏ | 4232/7135 [3:51:16<2:41:31, 3.34s/it]
59%|██████████████████████████████████████████████████████████▏ | 4233/7135 [3:51:19<2:36:30, 3.24s/it]
59%|██████████████████████████████████████████████████████████▏ | 4234/7135 [3:51:21<2:27:06, 3.04s/it]
59%|██████████████████████████████████████████████████████████▏ | 4235/7135 [3:51:25<2:27:30, 3.05s/it]
59%|██████████████████████████████████████████████████████████▏ | 4236/7135 [3:51:28<2:39:12, 3.30s/it]
59%|██████████████████████████████████████████████████████████▏ | 4237/7135 [3:51:32<2:42:03, 3.36s/it]
59%|██████████████████████████████████████████████████████████▏ | 4238/7135 [3:51:35<2:38:15, 3.28s/it]
59%|██████████████████████████████████████████████████████████▏ | 4239/7135 [3:51:38<2:35:43, 3.23s/it]
59%|██████████████████████████████████████████████████████████▏ | 4240/7135 [3:51:41<2:29:49, 3.11s/it]
{'loss': 0.8471, 'grad_norm': 5.125, 'learning_rate': 1.815021425949644e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 551.16, 'epoch': 5.94}
59%|██████████████████████████████████████████████████████████▏ | 4240/7135 [3:51:41<2:29:49, 3.11s/it]
59%|██████████████████████████████████████████████████████████▎ | 4241/7135 [3:51:44<2:29:56, 3.11s/it]
59%|██████████████████████████████████████████████████████████▎ | 4242/7135 [3:51:48<2:40:23, 3.33s/it]
59%|██████████████████████████████████████████████████████████▎ | 4243/7135 [3:51:51<2:32:40, 3.17s/it]
59%|██████████████████████████████████████████████████████████▎ | 4244/7135 [3:51:53<2:25:08, 3.01s/it]
59%|██████████████████████████████████████████████████████████▎ | 4245/7135 [3:51:57<2:34:02, 3.20s/it]
60%|██████████████████████████████████████████████████████████▎ | 4246/7135 [3:52:00<2:37:33, 3.27s/it]
60%|██████████████████████████████████████████████████████████▎ | 4247/7135 [3:52:03<2:31:41, 3.15s/it]
60%|██████████████████████████████████████████████████████████▎ | 4248/7135 [3:52:07<2:35:31, 3.23s/it]
60%|██████████████████████████████████████████████████████████▎ | 4249/7135 [3:52:10<2:30:50, 3.14s/it]
60%|██████████████████████████████████████████████████████████▎ | 4250/7135 [3:52:13<2:33:13, 3.19s/it]
{'loss': 0.6902, 'grad_norm': 3.96875, 'learning_rate': 1.8042913669096391e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 366.01, 'epoch': 5.95}
60%|██████████████████████████████████████████████████████████▎ | 4250/7135 [3:52:13<2:33:13, 3.19s/it]
60%|██████████████████████████████████████████████████████████▍ | 4251/7135 [3:52:16<2:30:57, 3.14s/it]
60%|██████████████████████████████████████████████████████████▍ | 4252/7135 [3:52:19<2:35:58, 3.25s/it]
60%|██████████████████████████████████████████████████████████▍ | 4253/7135 [3:52:23<2:34:07, 3.21s/it]
60%|██████████████████████████████████████████████████████████▍ | 4254/7135 [3:52:26<2:35:44, 3.24s/it]
60%|██████████████████████████████████████████████████████████▍ | 4255/7135 [3:52:29<2:30:02, 3.13s/it]
60%|██████████████████████████████████████████████████████████▍ | 4256/7135 [3:52:32<2:30:53, 3.14s/it]
60%|██████████████████████████████████████████████████████████▍ | 4257/7135 [3:52:35<2:27:27, 3.07s/it]
60%|██████████████████████████████████████████████████████████▍ | 4258/7135 [3:52:38<2:30:16, 3.13s/it]
60%|██████████████████████████████████████████████████████████▍ | 4259/7135 [3:52:41<2:33:03, 3.19s/it]
60%|██████████████████████████████████████████████████████████▌ | 4260/7135 [3:52:45<2:38:26, 3.31s/it]
{'loss': 0.816, 'grad_norm': 6.34375, 'learning_rate': 1.7935751817585444e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.57, 'epoch': 5.97}
60%|██████████████████████████████████████████████████████████▌ | 4260/7135 [3:52:45<2:38:26, 3.31s/it]
60%|██████████████████████████████████████████████████████████▌ | 4261/7135 [3:52:48<2:40:30, 3.35s/it]
60%|██████████████████████████████████████████████████████████▌ | 4262/7135 [3:52:52<2:38:17, 3.31s/it]
60%|██████████████████████████████████████████████████████████▌ | 4263/7135 [3:52:55<2:37:39, 3.29s/it]
60%|██████████████████████████████████████████████████████████▌ | 4264/7135 [3:52:58<2:31:54, 3.17s/it]
60%|██████████████████████████████████████████████████████████▌ | 4265/7135 [3:53:01<2:30:21, 3.14s/it]
60%|██████████████████████████████████████████████████████████▌ | 4266/7135 [3:53:04<2:26:09, 3.06s/it]
60%|██████████████████████████████████████████████████████████▌ | 4267/7135 [3:53:07<2:30:30, 3.15s/it]
60%|██████████████████████████████████████████████████████████▌ | 4268/7135 [3:53:10<2:28:32, 3.11s/it]
60%|██████████████████████████████████████████████████████████▋ | 4269/7135 [3:53:13<2:24:57, 3.03s/it]
60%|██████████████████████████████████████████████████████████▋ | 4270/7135 [3:53:16<2:29:14, 3.13s/it]
{'loss': 0.7974, 'grad_norm': 5.03125, 'learning_rate': 1.78287308419956e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.92, 'epoch': 5.98}
60%|██████████████████████████████████████████████████████████▋ | 4270/7135 [3:53:16<2:29:14, 3.13s/it]
60%|██████████████████████████████████████████████████████████▋ | 4271/7135 [3:53:19<2:23:08, 3.00s/it]
60%|██████████████████████████████████████████████████████████▋ | 4272/7135 [3:53:22<2:28:17, 3.11s/it]
60%|██████████████████████████████████████████████████████████▋ | 4273/7135 [3:53:26<2:32:22, 3.19s/it]
60%|██████████████████████████████████████████████████████████▋ | 4274/7135 [3:53:30<2:39:38, 3.35s/it]
60%|██████████████████████████████████████████████████████████▋ | 4275/7135 [3:53:33<2:38:30, 3.33s/it]
60%|██████████████████████████████████████████████████████████▋ | 4276/7135 [3:53:36<2:33:34, 3.22s/it]
60%|██████████████████████████████████████████████████████████▋ | 4277/7135 [3:53:39<2:31:55, 3.19s/it]
60%|██████████████████████████████████████████████████████████▊ | 4278/7135 [3:53:42<2:33:38, 3.23s/it]
60%|██████████████████████████████████████████████████████████▊ | 4279/7135 [3:53:45<2:33:55, 3.23s/it]
60%|██████████████████████████████████████████████████████████▊ | 4280/7135 [3:53:49<2:38:48, 3.34s/it]
{'loss': 0.9124, 'grad_norm': 5.625, 'learning_rate': 1.772185287654951e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 343.19, 'epoch': 6.0}
60%|██████████████████████████████████████████████████████████▊ | 4280/7135 [3:53:49<2:38:48, 3.34s/it]
60%|██████████████████████████████████████████████████████████▊ | 4281/7135 [3:53:52<2:28:27, 3.12s/it]
60%|██████████████████████████████████████████████████████████▊ | 4282/7135 [3:53:55<2:27:03, 3.09s/it]
60%|██████████████████████████████████████████████████████████▊ | 4283/7135 [3:53:58<2:29:34, 3.15s/it]
60%|██████████████████████████████████████████████████████████▊ | 4284/7135 [3:53:59<2:06:10, 2.66s/it][2025-12-23 18:18:05,608] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-4284
60%|██████████████████████████████████████████████████████████▎ | 4285/7135 [3:55:04<16:42:06, 21.10s/it]
60%|██████████████████████████████████████████████████████████▎ | 4286/7135 [3:55:07<12:27:32, 15.74s/it]
60%|██████████████████████████████████████████████████████████▉ | 4287/7135 [3:55:11<9:38:46, 12.19s/it]
60%|██████████████████████████████████████████████████████████▉ | 4288/7135 [3:55:14<7:27:37, 9.43s/it]
60%|██████████████████████████████████████████████████████████▉ | 4289/7135 [3:55:17<6:00:04, 7.59s/it]
60%|██████████████████████████████████████████████████████████▉ | 4290/7135 [3:55:20<4:56:00, 6.24s/it]
{'loss': 0.7333, 'grad_norm': 3.515625, 'learning_rate': 1.7615120052617923e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.58, 'epoch': 6.01}
60%|██████████████████████████████████████████████████████████▉ | 4290/7135 [3:55:20<4:56:00, 6.24s/it]
60%|██████████████████████████████████████████████████████████▉ | 4291/7135 [3:55:23<4:10:04, 5.28s/it]
60%|██████████████████████████████████████████████████████████▉ | 4292/7135 [3:55:27<3:46:36, 4.78s/it]
60%|██████████████████████████████████████████████████████████▉ | 4293/7135 [3:55:31<3:35:26, 4.55s/it]
60%|██████████████████████████████████████████████████████████▉ | 4294/7135 [3:55:34<3:18:52, 4.20s/it]
60%|██████████████████████████████████████████████████████████▉ | 4295/7135 [3:55:39<3:25:59, 4.35s/it]
60%|███████████████████████████████████████████████████████████ | 4296/7135 [3:55:42<3:08:39, 3.99s/it]
60%|███████████████████████████████████████████████████████████ | 4297/7135 [3:55:46<3:03:40, 3.88s/it]
60%|███████████████████████████████████████████████████████████ | 4298/7135 [3:55:49<2:53:17, 3.67s/it]
60%|███████████████████████████████████████████████████████████ | 4299/7135 [3:55:52<2:45:21, 3.50s/it]
60%|███████████████████████████████████████████████████████████ | 4300/7135 [3:55:56<2:48:54, 3.57s/it]
{'loss': 0.8533, 'grad_norm': 2.046875, 'learning_rate': 1.7508534498677137e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.81, 'epoch': 6.02}
60%|███████████████████████████████████████████████████████████ | 4300/7135 [3:55:56<2:48:54, 3.57s/it]
60%|███████████████████████████████████████████████████████████ | 4301/7135 [3:55:59<2:41:13, 3.41s/it]
60%|███████████████████████████████████████████████████████████ | 4302/7135 [3:56:03<2:52:13, 3.65s/it]
60%|███████████████████████████████████████████████████████████ | 4303/7135 [3:56:06<2:39:45, 3.38s/it]
60%|███████████████████████████████████████████████████████████ | 4304/7135 [3:56:09<2:40:43, 3.41s/it]
60%|███████████████████████████████████████████████████████████▏ | 4305/7135 [3:56:12<2:38:50, 3.37s/it]
60%|███████████████████████████████████████████████████████████▏ | 4306/7135 [3:56:16<2:36:49, 3.33s/it]
60%|███████████████████████████████████████████████████████████▏ | 4307/7135 [3:56:19<2:30:38, 3.20s/it]
60%|███████████████████████████████████████████████████████████▏ | 4308/7135 [3:56:22<2:34:15, 3.27s/it]
60%|███████████████████████████████████████████████████████████▏ | 4309/7135 [3:56:26<2:39:36, 3.39s/it]
60%|███████████████████████████████████████████████████████████▏ | 4310/7135 [3:56:28<2:29:03, 3.17s/it]
{'loss': 0.754, 'grad_norm': 5.59375, 'learning_rate': 1.740209834026658e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.03, 'epoch': 6.04}
60%|███████████████████████████████████████████████████████████▏ | 4310/7135 [3:56:28<2:29:03, 3.17s/it]
60%|███████████████████████████████████████████████████████████▏ | 4311/7135 [3:56:32<2:34:16, 3.28s/it]
60%|███████████████████████████████████████████████████████████▏ | 4312/7135 [3:56:35<2:34:40, 3.29s/it]
60%|███████████████████████████████████████████████████████████▏ | 4313/7135 [3:56:38<2:31:33, 3.22s/it]
60%|███████████████████████████████████████████████████████████▎ | 4314/7135 [3:56:42<2:32:51, 3.25s/it]
60%|███████████████████████████████████████████████████████████▎ | 4315/7135 [3:56:45<2:30:39, 3.21s/it]
60%|███████████████████████████████████████████████████████████▎ | 4316/7135 [3:56:48<2:27:09, 3.13s/it]
61%|███████████████████████████████████████████████████████████▎ | 4317/7135 [3:56:51<2:27:34, 3.14s/it]
61%|███████████████████████████████████████████████████████████▎ | 4318/7135 [3:56:53<2:21:52, 3.02s/it]
61%|███████████████████████████████████████████████████████████▎ | 4319/7135 [3:56:56<2:19:33, 2.97s/it]
61%|███████████████████████████████████████████████████████████▎ | 4320/7135 [3:56:59<2:16:26, 2.91s/it]
{'loss': 0.6828, 'grad_norm': 3.71875, 'learning_rate': 1.7295813699946447e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.65, 'epoch': 6.05}
61%|███████████████████████████████████████████████████████████▎ | 4320/7135 [3:56:59<2:16:26, 2.91s/it]
61%|███████████████████████████████████████████████████████████▎ | 4321/7135 [3:57:02<2:17:55, 2.94s/it]
61%|███████████████████████████████████████████████████████████▎ | 4322/7135 [3:57:05<2:18:14, 2.95s/it]
61%|███████████████████████████████████████████████████████████▍ | 4323/7135 [3:57:08<2:20:08, 2.99s/it]
61%|███████████████████████████████████████████████████████████▍ | 4324/7135 [3:57:12<2:26:27, 3.13s/it]
61%|███████████████████████████████████████████████████████████▍ | 4325/7135 [3:57:15<2:25:37, 3.11s/it]
61%|███████████████████████████████████████████████████████████▍ | 4326/7135 [3:57:18<2:22:01, 3.03s/it]
61%|███████████████████████████████████████████████████████████▍ | 4327/7135 [3:57:21<2:23:30, 3.07s/it]
61%|███████████████████████████████████████████████████████████▍ | 4328/7135 [3:57:24<2:21:33, 3.03s/it]
61%|███████████████████████████████████████████████████████████▍ | 4329/7135 [3:57:27<2:24:20, 3.09s/it]
61%|███████████████████████████████████████████████████████████▍ | 4330/7135 [3:57:30<2:30:11, 3.21s/it]
{'loss': 0.7424, 'grad_norm': 5.34375, 'learning_rate': 1.7189682697255311e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.95, 'epoch': 6.06}
61%|███████████████████████████████████████████████████████████▍ | 4330/7135 [3:57:30<2:30:11, 3.21s/it]
61%|███████████████████████████████████████████████████████████▍ | 4331/7135 [3:57:34<2:31:07, 3.23s/it]
61%|███████████████████████████████████████████████████████████▌ | 4332/7135 [3:57:37<2:29:23, 3.20s/it]
61%|███████████████████████████████████████████████████████████▌ | 4333/7135 [3:57:40<2:26:18, 3.13s/it]
61%|███████████████████████████████████████████████████████████▌ | 4334/7135 [3:57:43<2:24:51, 3.10s/it]
61%|███████████████████████████████████████████████████████████▌ | 4335/7135 [3:57:46<2:20:17, 3.01s/it]
61%|███████████████████████████████████████████████████████████▌ | 4336/7135 [3:57:49<2:21:05, 3.02s/it]
61%|███████████████████████████████████████████████████████████▌ | 4337/7135 [3:57:51<2:18:34, 2.97s/it]
61%|███████████████████████████████████████████████████████████▌ | 4338/7135 [3:57:55<2:29:12, 3.20s/it]
61%|███████████████████████████████████████████████████████████▌ | 4339/7135 [3:57:59<2:33:50, 3.30s/it]
61%|███████████████████████████████████████████████████████████▌ | 4340/7135 [3:58:03<2:43:14, 3.50s/it]
{'loss': 0.7179, 'grad_norm': 5.25, 'learning_rate': 1.7083707448667885e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 271.32, 'epoch': 6.08}
61%|███████████████████████████████████████████████████████████▌ | 4340/7135 [3:58:03<2:43:14, 3.50s/it]
61%|███████████████████████████████████████████████████████████▌ | 4341/7135 [3:58:06<2:43:22, 3.51s/it]
61%|███████████████████████████████████████████████████████████▋ | 4342/7135 [3:58:09<2:31:36, 3.26s/it]
61%|███████████████████████████████████████████████████████████▋ | 4343/7135 [3:58:12<2:28:53, 3.20s/it]
61%|███████████████████████████████████████████████████████████▋ | 4344/7135 [3:58:16<2:36:05, 3.36s/it]
61%|███████████████████████████████████████████████████████████▋ | 4345/7135 [3:58:19<2:31:59, 3.27s/it]
61%|███████████████████████████████████████████████████████████▋ | 4346/7135 [3:58:21<2:24:40, 3.11s/it]
61%|███████████████████████████████████████████████████████████▋ | 4347/7135 [3:58:25<2:23:47, 3.09s/it]
61%|███████████████████████████████████████████████████████████▋ | 4348/7135 [3:58:28<2:22:43, 3.07s/it]
61%|███████████████████████████████████████████████████████████▋ | 4349/7135 [3:58:31<2:26:26, 3.15s/it]
61%|███████████████████████████████████████████████████████████▋ | 4350/7135 [3:58:34<2:27:00, 3.17s/it]
{'loss': 0.7604, 'grad_norm': 4.3125, 'learning_rate': 1.6977890067552868e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 339.18, 'epoch': 6.09}
61%|███████████████████████████████████████████████████████████▋ | 4350/7135 [3:58:34<2:27:00, 3.17s/it]
61%|███████████████████████████████████████████████████████████▊ | 4351/7135 [3:58:37<2:27:05, 3.17s/it]
61%|███████████████████████████████████████████████████████████▊ | 4352/7135 [3:58:40<2:26:57, 3.17s/it]
61%|███████████████████████████████████████████████████████████▊ | 4353/7135 [3:58:44<2:38:42, 3.42s/it]
61%|███████████████████████████████████████████████████████████▊ | 4354/7135 [3:58:48<2:38:04, 3.41s/it]
61%|███████████████████████████████████████████████████████████▊ | 4355/7135 [3:58:51<2:31:03, 3.26s/it]
61%|███████████████████████████████████████████████████████████▊ | 4356/7135 [3:58:54<2:36:06, 3.37s/it]
61%|███████████████████████████████████████████████████████████▊ | 4357/7135 [3:58:57<2:26:32, 3.17s/it]
61%|███████████████████████████████████████████████████████████▊ | 4358/7135 [3:59:00<2:26:00, 3.15s/it]
61%|███████████████████████████████████████████████████████████▊ | 4359/7135 [3:59:03<2:21:09, 3.05s/it]
61%|███████████████████████████████████████████████████████████▉ | 4360/7135 [3:59:06<2:20:54, 3.05s/it]
{'loss': 0.9999, 'grad_norm': 5.8125, 'learning_rate': 1.6872232664130692e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 438.33, 'epoch': 6.11}
61%|███████████████████████████████████████████████████████████▉ | 4360/7135 [3:59:06<2:20:54, 3.05s/it]
61%|███████████████████████████████████████████████████████████▉ | 4361/7135 [3:59:09<2:25:57, 3.16s/it]
61%|███████████████████████████████████████████████████████████▉ | 4362/7135 [3:59:12<2:23:00, 3.09s/it]
61%|███████████████████████████████████████████████████████████▉ | 4363/7135 [3:59:16<2:30:26, 3.26s/it]
61%|███████████████████████████████████████████████████████████▉ | 4364/7135 [3:59:19<2:24:48, 3.14s/it]
61%|███████████████████████████████████████████████████████████▉ | 4365/7135 [3:59:22<2:24:50, 3.14s/it]
61%|███████████████████████████████████████████████████████████▉ | 4366/7135 [3:59:25<2:21:06, 3.06s/it]
61%|███████████████████████████████████████████████████████████▉ | 4367/7135 [3:59:28<2:25:24, 3.15s/it]
61%|███████████████████████████████████████████████████████████▉ | 4368/7135 [3:59:31<2:24:21, 3.13s/it]
61%|████████████████████████████████████████████████████████████ | 4369/7135 [3:59:34<2:20:19, 3.04s/it]
61%|████████████████████████████████████████████████████████████ | 4370/7135 [3:59:37<2:20:10, 3.04s/it]
{'loss': 0.6734, 'grad_norm': 4.5, 'learning_rate': 1.6766737345431544e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 449.61, 'epoch': 6.12}
61%|████████████████████████████████████████████████████████████ | 4370/7135 [3:59:37<2:20:10, 3.04s/it]
61%|████████████████████████████████████████████████████████████ | 4371/7135 [3:59:40<2:18:06, 3.00s/it]
61%|████████████████████████████████████████████████████████████ | 4372/7135 [3:59:44<2:24:48, 3.14s/it]
61%|████████████████████████████████████████████████████████████ | 4373/7135 [3:59:47<2:30:46, 3.28s/it]
61%|████████████████████████████████████████████████████████████ | 4374/7135 [3:59:50<2:24:29, 3.14s/it]
61%|████████████████████████████████████████████████████████████ | 4375/7135 [3:59:53<2:23:54, 3.13s/it]
61%|████████████████████████████████████████████████████████████ | 4376/7135 [3:59:56<2:24:42, 3.15s/it]
61%|████████████████████████████████████████████████████████████ | 4377/7135 [4:00:00<2:26:12, 3.18s/it]
61%|████████████████████████████████████████████████████████████▏ | 4378/7135 [4:00:02<2:19:25, 3.03s/it]
61%|████████████████████████████████████████████████████████████▏ | 4379/7135 [4:00:05<2:19:35, 3.04s/it]
61%|████████████████████████████████████████████████████████████▏ | 4380/7135 [4:00:09<2:31:43, 3.30s/it]
{'loss': 0.7561, 'grad_norm': 5.3125, 'learning_rate': 1.6661406215253276e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 312.51, 'epoch': 6.13}
61%|████████████████████████████████████████████████████████████▏ | 4380/7135 [4:00:09<2:31:43, 3.30s/it]
61%|████████████████████████████████████████████████████████████▏ | 4381/7135 [4:00:13<2:36:49, 3.42s/it]
61%|████████████████████████████████████████████████████████████▏ | 4382/7135 [4:00:16<2:30:58, 3.29s/it]
61%|████████████████████████████████████████████████████████████▏ | 4383/7135 [4:00:19<2:28:00, 3.23s/it]
61%|████████████████████████████████████████████████████████████▏ | 4384/7135 [4:00:22<2:31:13, 3.30s/it]
61%|████████████████████████████████████████████████████████████▏ | 4385/7135 [4:00:26<2:30:42, 3.29s/it]
61%|████████████████████████████████████████████████████████████▏ | 4386/7135 [4:00:29<2:33:05, 3.34s/it]
61%|████████████████████████████████████████████████████████████▎ | 4387/7135 [4:00:32<2:28:13, 3.24s/it]
61%|████████████████████████████████████████████████████████████▎ | 4388/7135 [4:00:35<2:24:55, 3.17s/it]
62%|████████████████████████████████████████████████████████████▎ | 4389/7135 [4:00:38<2:16:53, 2.99s/it]
62%|████████████████████████████████████████████████████████████▎ | 4390/7135 [4:00:41<2:16:02, 2.97s/it]
{'loss': 0.8028, 'grad_norm': 6.1875, 'learning_rate': 1.6556241374119463e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.16, 'epoch': 6.15}
62%|████████████████████████████████████████████████████████████▎ | 4390/7135 [4:00:41<2:16:02, 2.97s/it]
62%|████████████████████████████████████████████████████████████▎ | 4391/7135 [4:00:44<2:18:42, 3.03s/it]
62%|████████████████████████████████████████████████████████████▎ | 4392/7135 [4:00:47<2:20:02, 3.06s/it]
62%|████████████████████████████████████████████████████████████▎ | 4393/7135 [4:00:51<2:29:27, 3.27s/it]
62%|████████████████████████████████████████████████████████████▎ | 4394/7135 [4:00:54<2:24:44, 3.17s/it]
62%|████████████████████████████████████████████████████████████▎ | 4395/7135 [4:00:58<2:40:57, 3.52s/it]
62%|████████████████████████████████████████████████████████████▍ | 4396/7135 [4:01:01<2:35:45, 3.41s/it]
62%|████████████████████████████████████████████████████████████▍ | 4397/7135 [4:01:04<2:31:11, 3.31s/it]
62%|████████████████████████████████████████████████████████████▍ | 4398/7135 [4:01:07<2:21:14, 3.10s/it]
62%|████████████████████████████████████████████████████████████▍ | 4399/7135 [4:01:10<2:18:53, 3.05s/it]
62%|████████████████████████████████████████████████████████████▍ | 4400/7135 [4:01:13<2:17:41, 3.02s/it]
{'loss': 0.6353, 'grad_norm': 4.84375, 'learning_rate': 1.6451244919237576e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.01, 'epoch': 6.16}
62%|████████████████████████████████████████████████████████████▍ | 4400/7135 [4:01:13<2:17:41, 3.02s/it]
62%|████████████████████████████████████████████████████████████▍ | 4401/7135 [4:01:15<2:13:35, 2.93s/it]
62%|████████████████████████████████████████████████████████████▍ | 4402/7135 [4:01:19<2:22:49, 3.14s/it]
62%|████████████████████████████████████████████████████████████▍ | 4403/7135 [4:01:22<2:25:10, 3.19s/it]
62%|████████████████████████████████████████████████████████████▍ | 4404/7135 [4:01:26<2:24:54, 3.18s/it]
62%|████████████████████████████████████████████████████████████▌ | 4405/7135 [4:01:28<2:21:09, 3.10s/it]
62%|████████████████████████████████████████████████████████████▌ | 4406/7135 [4:01:32<2:20:41, 3.09s/it]
62%|████████████████████████████████████████████████████████████▌ | 4407/7135 [4:01:35<2:19:24, 3.07s/it]
62%|████████████████████████████████████████████████████████████▌ | 4408/7135 [4:01:38<2:23:30, 3.16s/it]
62%|████████████████████████████████████████████████████████████▌ | 4409/7135 [4:01:41<2:26:59, 3.24s/it]
62%|████████████████████████████████████████████████████████████▌ | 4410/7135 [4:01:44<2:22:46, 3.14s/it]
{'loss': 0.7111, 'grad_norm': 5.65625, 'learning_rate': 1.6346418944457065e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 405.54, 'epoch': 6.18}
62%|████████████████████████████████████████████████████████████▌ | 4410/7135 [4:01:44<2:22:46, 3.14s/it]
62%|████████████████████████████████████████████████████████████▌ | 4411/7135 [4:01:47<2:17:39, 3.03s/it]
62%|████████████████████████████████████████████████████████████▌ | 4412/7135 [4:01:50<2:22:41, 3.14s/it]
62%|████████████████████████████████████████████████████████████▌ | 4413/7135 [4:01:54<2:31:32, 3.34s/it]
62%|████████████████████████████████████████████████████████████▋ | 4414/7135 [4:01:58<2:32:40, 3.37s/it]
62%|████████████████████████████████████████████████████████████▋ | 4415/7135 [4:02:01<2:32:19, 3.36s/it]
62%|████████████████████████████████████████████████████████████▋ | 4416/7135 [4:02:04<2:31:41, 3.35s/it]
62%|████████████████████████████████████████████████████████████▋ | 4417/7135 [4:02:07<2:26:11, 3.23s/it]
62%|████████████████████████████████████████████████████████████▋ | 4418/7135 [4:02:10<2:25:35, 3.22s/it]
62%|████████████████████████████████████████████████████████████▋ | 4419/7135 [4:02:14<2:31:44, 3.35s/it]
62%|████████████████████████████████████████████████████████████▋ | 4420/7135 [4:02:17<2:23:17, 3.17s/it]
{'loss': 1.1395, 'grad_norm': 6.6875, 'learning_rate': 1.6241765540227667e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 571.0, 'epoch': 6.19}
62%|████████████████████████████████████████████████████████████▋ | 4420/7135 [4:02:17<2:23:17, 3.17s/it]
62%|████████████████████████████████████████████████████████████▋ | 4421/7135 [4:02:20<2:21:12, 3.12s/it]
62%|████████████████████████████████████████████████████████████▋ | 4422/7135 [4:02:23<2:22:24, 3.15s/it]
62%|████████████████████████████████████████████████████████████▊ | 4423/7135 [4:02:26<2:24:33, 3.20s/it]
62%|████████████████████████████████████████████████████████████▊ | 4424/7135 [4:02:29<2:21:53, 3.14s/it]
62%|████████████████████████████████████████████████████████████▊ | 4425/7135 [4:02:33<2:33:20, 3.40s/it]
62%|████████████████████████████████████████████████████████████▊ | 4426/7135 [4:02:36<2:28:27, 3.29s/it]
62%|████████████████████████████████████████████████████████████▊ | 4427/7135 [4:02:39<2:22:37, 3.16s/it]
62%|████████████████████████████████████████████████████████████▊ | 4428/7135 [4:02:43<2:26:04, 3.24s/it]
62%|████████████████████████████████████████████████████████████▊ | 4429/7135 [4:02:46<2:22:45, 3.17s/it]
62%|████████████████████████████████████████████████████████████▊ | 4430/7135 [4:02:49<2:26:54, 3.26s/it]
{'loss': 0.7571, 'grad_norm': 5.46875, 'learning_rate': 1.613728679355771e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 345.98, 'epoch': 6.2}
62%|████████████████████████████████████████████████████████████▊ | 4430/7135 [4:02:49<2:26:54, 3.26s/it]
62%|████████████████████████████████████████████████████████████▊ | 4431/7135 [4:02:52<2:20:38, 3.12s/it]
62%|████████████████████████████████████████████████████████████▊ | 4432/7135 [4:02:56<2:38:42, 3.52s/it]
62%|████████████████████████████████████████████████████████████▉ | 4433/7135 [4:03:00<2:34:29, 3.43s/it]
62%|████████████████████████████████████████████████████████████▉ | 4434/7135 [4:03:03<2:26:05, 3.25s/it]
62%|████████████████████████████████████████████████████████████▉ | 4435/7135 [4:03:05<2:22:04, 3.16s/it]
62%|████████████████████████████████████████████████████████████▉ | 4436/7135 [4:03:09<2:29:07, 3.32s/it]
62%|████████████████████████████████████████████████████████████▉ | 4437/7135 [4:03:12<2:28:08, 3.29s/it]
62%|████████████████████████████████████████████████████████████▉ | 4438/7135 [4:03:16<2:33:07, 3.41s/it]
62%|████████████████████████████████████████████████████████████▉ | 4439/7135 [4:03:19<2:29:16, 3.32s/it]
62%|████████████████████████████████████████████████████████████▉ | 4440/7135 [4:03:23<2:38:08, 3.52s/it]
{'loss': 0.7608, 'grad_norm': 4.4375, 'learning_rate': 1.6032984787972477e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.8, 'epoch': 6.22}
62%|████████████████████████████████████████████████████████████▉ | 4440/7135 [4:03:23<2:38:08, 3.52s/it]
62%|████████████████████████████████████████████████████████████▉ | 4441/7135 [4:03:27<2:36:40, 3.49s/it]
62%|█████████████████████████████████████████████████████████████ | 4442/7135 [4:03:30<2:29:21, 3.33s/it]
62%|█████████████████████████████████████████████████████████████ | 4443/7135 [4:03:33<2:26:50, 3.27s/it]
62%|█████████████████████████████████████████████████████████████ | 4444/7135 [4:03:36<2:28:41, 3.32s/it]
62%|█████████████████████████████████████████████████████████████ | 4445/7135 [4:03:39<2:29:49, 3.34s/it]
62%|█████████████████████████████████████████████████████████████ | 4446/7135 [4:03:43<2:26:29, 3.27s/it]
62%|█████████████████████████████████████████████████████████████ | 4447/7135 [4:03:46<2:22:46, 3.19s/it]
62%|█████████████████████████████████████████████████████████████ | 4448/7135 [4:03:49<2:23:40, 3.21s/it]
62%|█████████████████████████████████████████████████████████████ | 4449/7135 [4:03:52<2:26:19, 3.27s/it]
62%|█████████████████████████████████████████████████████████████ | 4450/7135 [4:03:56<2:29:37, 3.34s/it]
{'loss': 0.9068, 'grad_norm': 5.1875, 'learning_rate': 1.5928861603472636e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.15, 'epoch': 6.23}
62%|█████████████████████████████████████████████████████████████ | 4450/7135 [4:03:56<2:29:37, 3.34s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4451/7135 [4:03:59<2:22:03, 3.18s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4452/7135 [4:04:01<2:16:36, 3.06s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4453/7135 [4:04:04<2:14:20, 3.01s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4454/7135 [4:04:09<2:31:42, 3.40s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4455/7135 [4:04:12<2:27:36, 3.30s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4456/7135 [4:04:14<2:19:59, 3.14s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4457/7135 [4:04:18<2:25:55, 3.27s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4458/7135 [4:04:21<2:19:48, 3.13s/it]
62%|█████████████████████████████████████████████████████████████▏ | 4459/7135 [4:04:24<2:18:42, 3.11s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4460/7135 [4:04:27<2:22:34, 3.20s/it]
{'loss': 0.6885, 'grad_norm': 5.84375, 'learning_rate': 1.5824919316492837e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 354.17, 'epoch': 6.25}
63%|█████████████████████████████████████████████████████████████▎ | 4460/7135 [4:04:27<2:22:34, 3.20s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4461/7135 [4:04:30<2:22:08, 3.19s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4462/7135 [4:04:34<2:24:19, 3.24s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4463/7135 [4:04:37<2:23:25, 3.22s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4464/7135 [4:04:41<2:29:03, 3.35s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4465/7135 [4:04:43<2:18:39, 3.12s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4466/7135 [4:04:47<2:23:41, 3.23s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4467/7135 [4:04:51<2:33:17, 3.45s/it]
63%|█████████████████████████████████████████████████████████████▎ | 4468/7135 [4:04:54<2:28:26, 3.34s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4469/7135 [4:04:57<2:24:43, 3.26s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4470/7135 [4:05:00<2:22:10, 3.20s/it]
{'loss': 0.7754, 'grad_norm': 4.6875, 'learning_rate': 1.572115999986022e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.78, 'epoch': 6.26}
63%|█████████████████████████████████████████████████████████████▍ | 4470/7135 [4:05:00<2:22:10, 3.20s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4471/7135 [4:05:03<2:18:03, 3.11s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4472/7135 [4:05:06<2:20:00, 3.15s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4473/7135 [4:05:09<2:23:32, 3.24s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4474/7135 [4:05:13<2:25:30, 3.28s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4475/7135 [4:05:16<2:22:06, 3.21s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4476/7135 [4:05:19<2:18:23, 3.12s/it]
63%|█████████████████████████████████████████████████████████████▍ | 4477/7135 [4:05:22<2:14:29, 3.04s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4478/7135 [4:05:25<2:18:09, 3.12s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4479/7135 [4:05:28<2:15:12, 3.05s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4480/7135 [4:05:31<2:18:09, 3.12s/it]
{'loss': 0.7239, 'grad_norm': 4.59375, 'learning_rate': 1.5617585722753114e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.57, 'epoch': 6.27}
63%|█████████████████████████████████████████████████████████████▌ | 4480/7135 [4:05:31<2:18:09, 3.12s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4481/7135 [4:05:34<2:17:29, 3.11s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4482/7135 [4:05:37<2:19:56, 3.16s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4483/7135 [4:05:41<2:23:02, 3.24s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4484/7135 [4:05:44<2:19:49, 3.16s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4485/7135 [4:05:47<2:15:17, 3.06s/it]
63%|█████████████████████████████████████████████████████████████▌ | 4486/7135 [4:05:50<2:15:36, 3.07s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4487/7135 [4:05:53<2:13:10, 3.02s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4488/7135 [4:05:56<2:12:14, 3.00s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4489/7135 [4:05:59<2:16:00, 3.08s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4490/7135 [4:06:02<2:09:42, 2.94s/it]
{'loss': 0.7197, 'grad_norm': 5.0625, 'learning_rate': 1.5514198550659792e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 536.54, 'epoch': 6.29}
63%|█████████████████████████████████████████████████████████████▋ | 4490/7135 [4:06:02<2:09:42, 2.94s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4491/7135 [4:06:04<2:06:00, 2.86s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4492/7135 [4:06:07<2:10:05, 2.95s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4493/7135 [4:06:11<2:18:37, 3.15s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4494/7135 [4:06:14<2:19:37, 3.17s/it]
63%|█████████████████████████████████████████████████████████████▋ | 4495/7135 [4:06:17<2:16:35, 3.10s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4496/7135 [4:06:20<2:19:19, 3.17s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4497/7135 [4:06:24<2:26:49, 3.34s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4498/7135 [4:06:27<2:26:30, 3.33s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4499/7135 [4:06:31<2:23:51, 3.27s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4500/7135 [4:06:33<2:18:12, 3.15s/it]
{'loss': 0.703, 'grad_norm': 5.125, 'learning_rate': 1.541100054533725e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 396.11, 'epoch': 6.3}
63%|█████████████████████████████████████████████████████████████▊ | 4500/7135 [4:06:34<2:18:12, 3.15s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4501/7135 [4:06:36<2:13:25, 3.04s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4502/7135 [4:06:39<2:09:39, 2.95s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4503/7135 [4:06:43<2:18:58, 3.17s/it]
63%|█████████████████████████████████████████████████████████████▊ | 4504/7135 [4:06:46<2:17:47, 3.14s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4505/7135 [4:06:49<2:14:35, 3.07s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4506/7135 [4:06:52<2:17:25, 3.14s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4507/7135 [4:06:56<2:26:44, 3.35s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4508/7135 [4:07:00<2:33:07, 3.50s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4509/7135 [4:07:03<2:32:24, 3.48s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4510/7135 [4:07:07<2:37:50, 3.61s/it]
{'loss': 0.929, 'grad_norm': 4.5, 'learning_rate': 1.5307993764770084e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.51, 'epoch': 6.32}
63%|█████████████████████████████████████████████████████████████▉ | 4510/7135 [4:07:07<2:37:50, 3.61s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4511/7135 [4:07:10<2:33:52, 3.52s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4512/7135 [4:07:13<2:25:32, 3.33s/it]
63%|█████████████████████████████████████████████████████████████▉ | 4513/7135 [4:07:16<2:20:02, 3.20s/it]
63%|██████████████████████████████████████████████████████████████ | 4514/7135 [4:07:19<2:15:30, 3.10s/it]
63%|██████████████████████████████████████████████████████████████ | 4515/7135 [4:07:22<2:17:02, 3.14s/it]
63%|██████████████████████████████████████████████████████████████ | 4516/7135 [4:07:26<2:19:19, 3.19s/it]
63%|██████████████████████████████████████████████████████████████ | 4517/7135 [4:07:29<2:19:04, 3.19s/it]
63%|██████████████████████████████████████████████████████████████ | 4518/7135 [4:07:32<2:14:19, 3.08s/it]
63%|██████████████████████████████████████████████████████████████ | 4519/7135 [4:07:34<2:09:59, 2.98s/it]
63%|██████████████████████████████████████████████████████████████ | 4520/7135 [4:07:38<2:14:51, 3.09s/it]
{'loss': 0.6671, 'grad_norm': 4.46875, 'learning_rate': 1.52051802631295e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 308.31, 'epoch': 6.33}
63%|██████████████████████████████████████████████████████████████ | 4520/7135 [4:07:38<2:14:51, 3.09s/it]
63%|██████████████████████████████████████████████████████████████ | 4521/7135 [4:07:41<2:15:10, 3.10s/it]
63%|██████████████████████████████████████████████████████████████ | 4522/7135 [4:07:44<2:18:06, 3.17s/it]
63%|██████████████████████████████████████████████████████████████ | 4523/7135 [4:07:47<2:12:59, 3.05s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4524/7135 [4:07:50<2:15:53, 3.12s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4525/7135 [4:07:54<2:20:39, 3.23s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4526/7135 [4:07:57<2:24:16, 3.32s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4527/7135 [4:08:01<2:25:12, 3.34s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4528/7135 [4:08:03<2:17:27, 3.16s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4529/7135 [4:08:06<2:17:13, 3.16s/it]
63%|██████████████████████████████████████████████████████████████▏ | 4530/7135 [4:08:09<2:10:46, 3.01s/it]
{'loss': 0.7039, 'grad_norm': 6.375, 'learning_rate': 1.5102562090732292e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 457.67, 'epoch': 6.34}
63%|██████████████████████████████████████████████████████████████▏ | 4530/7135 [4:08:09<2:10:46, 3.01s/it]
64%|██████████████████████████████████████████████████████████████▏ | 4531/7135 [4:08:12<2:10:07, 3.00s/it]
64%|██████████████████████████████████████████████████████████████▏ | 4532/7135 [4:08:15<2:11:45, 3.04s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4533/7135 [4:08:18<2:06:43, 2.92s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4534/7135 [4:08:21<2:06:37, 2.92s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4535/7135 [4:08:24<2:11:19, 3.03s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4536/7135 [4:08:27<2:13:16, 3.08s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4537/7135 [4:08:30<2:14:47, 3.11s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4538/7135 [4:08:33<2:12:08, 3.05s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4539/7135 [4:08:36<2:09:31, 2.99s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4540/7135 [4:08:39<2:08:21, 2.97s/it]
{'loss': 0.7158, 'grad_norm': 6.40625, 'learning_rate': 1.500014129399998e-06, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.07, 'epoch': 6.36}
64%|██████████████████████████████████████████████████████████████▎ | 4540/7135 [4:08:39<2:08:21, 2.97s/it]
64%|██████████████████████████████████████████████████████████████▎ | 4541/7135 [4:08:42<2:09:27, 2.99s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4542/7135 [4:08:45<2:13:04, 3.08s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4543/7135 [4:08:49<2:13:29, 3.09s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4544/7135 [4:08:52<2:14:07, 3.11s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4545/7135 [4:08:55<2:22:32, 3.30s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4546/7135 [4:08:59<2:19:37, 3.24s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4547/7135 [4:09:02<2:15:43, 3.15s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4548/7135 [4:09:05<2:15:39, 3.15s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4549/7135 [4:09:07<2:09:48, 3.01s/it]
64%|██████████████████████████████████████████████████████████████▍ | 4550/7135 [4:09:10<2:06:49, 2.94s/it]
{'loss': 0.7779, 'grad_norm': 4.78125, 'learning_rate': 1.4897919915418027e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 440.55, 'epoch': 6.37}
64%|██████████████████████████████████████████████████████████████▍ | 4550/7135 [4:09:10<2:06:49, 2.94s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4551/7135 [4:09:13<2:02:10, 2.84s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4552/7135 [4:09:16<2:09:25, 3.01s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4553/7135 [4:09:20<2:16:16, 3.17s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4554/7135 [4:09:23<2:15:48, 3.16s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4555/7135 [4:09:26<2:18:15, 3.22s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4556/7135 [4:09:29<2:16:44, 3.18s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4557/7135 [4:09:32<2:10:51, 3.05s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4558/7135 [4:09:35<2:08:22, 2.99s/it]
64%|██████████████████████████████████████████████████████████████▌ | 4559/7135 [4:09:38<2:07:03, 2.96s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4560/7135 [4:09:41<2:13:31, 3.11s/it]
{'loss': 0.7155, 'grad_norm': 4.75, 'learning_rate': 1.4795899993495049e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.99, 'epoch': 6.39}
64%|██████████████████████████████████████████████████████████████▋ | 4560/7135 [4:09:41<2:13:31, 3.11s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4561/7135 [4:09:44<2:06:44, 2.95s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4562/7135 [4:09:47<2:09:15, 3.01s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4563/7135 [4:09:50<2:12:26, 3.09s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4564/7135 [4:09:54<2:19:51, 3.26s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4565/7135 [4:09:57<2:19:10, 3.25s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4566/7135 [4:10:01<2:28:05, 3.46s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4567/7135 [4:10:04<2:20:10, 3.28s/it]
64%|██████████████████████████████████████████████████████████████▋ | 4568/7135 [4:10:07<2:20:59, 3.30s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4569/7135 [4:10:10<2:16:07, 3.18s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4570/7135 [4:10:14<2:21:12, 3.30s/it]
{'loss': 0.8464, 'grad_norm': 6.03125, 'learning_rate': 1.4694083562722202e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 311.72, 'epoch': 6.4}
64%|██████████████████████████████████████████████████████████████▊ | 4570/7135 [4:10:14<2:21:12, 3.30s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4571/7135 [4:10:17<2:17:14, 3.21s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4572/7135 [4:10:20<2:24:21, 3.38s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4573/7135 [4:10:23<2:16:58, 3.21s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4574/7135 [4:10:26<2:12:56, 3.11s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4575/7135 [4:10:29<2:12:29, 3.11s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4576/7135 [4:10:33<2:16:29, 3.20s/it]
64%|██████████████████████████████████████████████████████████████▊ | 4577/7135 [4:10:36<2:14:31, 3.16s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4578/7135 [4:10:39<2:13:03, 3.12s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4579/7135 [4:10:43<2:23:37, 3.37s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4580/7135 [4:10:46<2:17:41, 3.23s/it]
{'loss': 0.7432, 'grad_norm': 5.03125, 'learning_rate': 1.4592472653532616e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 419.09, 'epoch': 6.41}
64%|██████████████████████████████████████████████████████████████▉ | 4580/7135 [4:10:46<2:17:41, 3.23s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4581/7135 [4:10:49<2:17:50, 3.24s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4582/7135 [4:10:52<2:13:32, 3.14s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4583/7135 [4:10:55<2:10:45, 3.07s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4584/7135 [4:10:58<2:15:46, 3.19s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4585/7135 [4:11:01<2:16:24, 3.21s/it]
64%|██████████████████████████████████████████████████████████████▉ | 4586/7135 [4:11:05<2:25:06, 3.42s/it]
64%|███████████████████████████████████████████████████████████████ | 4587/7135 [4:11:09<2:22:13, 3.35s/it]
64%|███████████████████████████████████████████████████████████████ | 4588/7135 [4:11:11<2:14:50, 3.18s/it]
64%|███████████████████████████████████████████████████████████████ | 4589/7135 [4:11:14<2:13:11, 3.14s/it]
64%|███████████████████████████████████████████████████████████████ | 4590/7135 [4:11:18<2:15:26, 3.19s/it]
{'loss': 0.7425, 'grad_norm': 2.609375, 'learning_rate': 1.4491069292260867e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.48, 'epoch': 6.43}
64%|███████████████████████████████████████████████████████████████ | 4590/7135 [4:11:18<2:15:26, 3.19s/it]
64%|███████████████████████████████████████████████████████████████ | 4591/7135 [4:11:21<2:11:27, 3.10s/it]
64%|███████████████████████████████████████████████████████████████ | 4592/7135 [4:11:24<2:20:46, 3.32s/it]
64%|███████████████████████████████████████████████████████████████ | 4593/7135 [4:11:27<2:16:00, 3.21s/it]
64%|███████████████████████████████████████████████████████████████ | 4594/7135 [4:11:31<2:15:02, 3.19s/it]
64%|███████████████████████████████████████████████████████████████ | 4595/7135 [4:11:33<2:09:27, 3.06s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4596/7135 [4:11:36<2:10:34, 3.09s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4597/7135 [4:11:40<2:22:26, 3.37s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4598/7135 [4:11:44<2:20:17, 3.32s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4599/7135 [4:11:47<2:21:33, 3.35s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4600/7135 [4:11:50<2:14:32, 3.18s/it]
{'loss': 0.8503, 'grad_norm': 6.03125, 'learning_rate': 1.4389875501102602e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 461.77, 'epoch': 6.44}
64%|███████████████████████████████████████████████████████████████▏ | 4600/7135 [4:11:50<2:14:32, 3.18s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4601/7135 [4:11:53<2:11:11, 3.11s/it]
64%|███████████████████████████████████████████████████████████████▏ | 4602/7135 [4:11:56<2:16:37, 3.24s/it]
65%|███████████████████████████████████████████████████████████████▏ | 4603/7135 [4:11:59<2:12:11, 3.13s/it]
65%|███████████████████████████████████████████████████████████████▏ | 4604/7135 [4:12:03<2:15:10, 3.20s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4605/7135 [4:12:06<2:12:25, 3.14s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4606/7135 [4:12:09<2:10:54, 3.11s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4607/7135 [4:12:12<2:12:13, 3.14s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4608/7135 [4:12:16<2:20:20, 3.33s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4609/7135 [4:12:19<2:18:59, 3.30s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4610/7135 [4:12:22<2:17:30, 3.27s/it]
{'loss': 0.7252, 'grad_norm': 6.0625, 'learning_rate': 1.4288893298074207e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 473.01, 'epoch': 6.46}
65%|███████████████████████████████████████████████████████████████▎ | 4610/7135 [4:12:22<2:17:30, 3.27s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4611/7135 [4:12:25<2:07:50, 3.04s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4612/7135 [4:12:28<2:18:23, 3.29s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4613/7135 [4:12:31<2:15:14, 3.22s/it]
65%|███████████████████████████████████████████████████████████████▎ | 4614/7135 [4:12:35<2:19:37, 3.32s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4615/7135 [4:12:38<2:20:39, 3.35s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4616/7135 [4:12:41<2:14:20, 3.20s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4617/7135 [4:12:44<2:11:29, 3.13s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4618/7135 [4:12:47<2:10:53, 3.12s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4619/7135 [4:12:51<2:14:02, 3.20s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4620/7135 [4:12:54<2:12:58, 3.17s/it]
{'loss': 0.7569, 'grad_norm': 4.03125, 'learning_rate': 1.4188124696972556e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 398.94, 'epoch': 6.47}
65%|███████████████████████████████████████████████████████████████▍ | 4620/7135 [4:12:54<2:12:58, 3.17s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4621/7135 [4:12:57<2:10:26, 3.11s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4622/7135 [4:13:00<2:12:42, 3.17s/it]
65%|███████████████████████████████████████████████████████████████▍ | 4623/7135 [4:13:04<2:16:57, 3.27s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4624/7135 [4:13:07<2:17:15, 3.28s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4625/7135 [4:13:10<2:12:57, 3.18s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4626/7135 [4:13:13<2:13:58, 3.20s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4627/7135 [4:13:16<2:15:04, 3.23s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4628/7135 [4:13:19<2:12:59, 3.18s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4629/7135 [4:13:23<2:11:56, 3.16s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4630/7135 [4:13:26<2:14:21, 3.22s/it]
{'loss': 0.7512, 'grad_norm': 4.9375, 'learning_rate': 1.4087571707334825e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.37, 'epoch': 6.48}
65%|███████████████████████████████████████████████████████████████▌ | 4630/7135 [4:13:26<2:14:21, 3.22s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4631/7135 [4:13:29<2:15:15, 3.24s/it]
65%|███████████████████████████████████████████████████████████████▌ | 4632/7135 [4:13:32<2:11:26, 3.15s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4633/7135 [4:13:35<2:09:04, 3.10s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4634/7135 [4:13:39<2:13:06, 3.19s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4635/7135 [4:13:41<2:08:00, 3.07s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4636/7135 [4:13:45<2:17:16, 3.30s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4637/7135 [4:13:48<2:09:16, 3.11s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4638/7135 [4:13:51<2:09:35, 3.11s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4639/7135 [4:13:54<2:06:34, 3.04s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4640/7135 [4:13:57<2:04:58, 3.01s/it]
{'loss': 0.7365, 'grad_norm': 4.8125, 'learning_rate': 1.398723633439849e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 400.46, 'epoch': 6.5}
65%|███████████████████████████████████████████████████████████████▋ | 4640/7135 [4:13:57<2:04:58, 3.01s/it]
65%|███████████████████████████████████████████████████████████████▋ | 4641/7135 [4:14:00<2:07:28, 3.07s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4642/7135 [4:14:04<2:18:14, 3.33s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4643/7135 [4:14:07<2:14:12, 3.23s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4644/7135 [4:14:10<2:16:26, 3.29s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4645/7135 [4:14:13<2:09:43, 3.13s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4646/7135 [4:14:16<2:11:45, 3.18s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4647/7135 [4:14:19<2:07:28, 3.07s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4648/7135 [4:14:23<2:14:20, 3.24s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4649/7135 [4:14:26<2:11:05, 3.16s/it]
65%|███████████████████████████████████████████████████████████████▊ | 4650/7135 [4:14:30<2:20:37, 3.40s/it]
{'loss': 0.6899, 'grad_norm': 4.0, 'learning_rate': 1.3887120579061264e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 356.32, 'epoch': 6.51}
65%|███████████████████████████████████████████████████████████████▊ | 4650/7135 [4:14:30<2:20:37, 3.40s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4651/7135 [4:14:33<2:18:23, 3.34s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4652/7135 [4:14:36<2:10:46, 3.16s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4653/7135 [4:14:39<2:17:17, 3.32s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4654/7135 [4:14:43<2:21:18, 3.42s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4655/7135 [4:14:47<2:23:05, 3.46s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4656/7135 [4:14:50<2:16:59, 3.32s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4657/7135 [4:14:53<2:21:26, 3.42s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4658/7135 [4:14:56<2:17:33, 3.33s/it]
65%|███████████████████████████████████████████████████████████████▉ | 4659/7135 [4:15:00<2:16:49, 3.32s/it]
65%|████████████████████████████████████████████████████████████████ | 4660/7135 [4:15:03<2:14:43, 3.27s/it]
{'loss': 0.7151, 'grad_norm': 5.5, 'learning_rate': 1.3787226437841229e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.74, 'epoch': 6.53}
65%|████████████████████████████████████████████████████████████████ | 4660/7135 [4:15:03<2:14:43, 3.27s/it]
65%|████████████████████████████████████████████████████████████████ | 4661/7135 [4:15:06<2:10:26, 3.16s/it]
65%|████████████████████████████████████████████████████████████████ | 4662/7135 [4:15:11<2:33:54, 3.73s/it]
65%|████████████████████████████████████████████████████████████████ | 4663/7135 [4:15:14<2:28:02, 3.59s/it]
65%|████████████████████████████████████████████████████████████████ | 4664/7135 [4:15:17<2:18:53, 3.37s/it]
65%|████████████████████████████████████████████████████████████████ | 4665/7135 [4:15:21<2:21:29, 3.44s/it]
65%|████████████████████████████████████████████████████████████████ | 4666/7135 [4:15:24<2:17:38, 3.34s/it]
65%|████████████████████████████████████████████████████████████████ | 4667/7135 [4:15:27<2:13:58, 3.26s/it]
65%|████████████████████████████████████████████████████████████████ | 4668/7135 [4:15:30<2:14:51, 3.28s/it]
65%|████████████████████████████████████████████████████████████████▏ | 4669/7135 [4:15:33<2:14:15, 3.27s/it]
65%|████████████████████████████████████████████████████████████████▏ | 4670/7135 [4:15:37<2:16:16, 3.32s/it]
{'loss': 0.8984, 'grad_norm': 5.46875, 'learning_rate': 1.3687555902837018e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 547.14, 'epoch': 6.54}
65%|████████████████████████████████████████████████████████████████▏ | 4670/7135 [4:15:37<2:16:16, 3.32s/it]
65%|████████████████████████████████████████████████████████████████▏ | 4671/7135 [4:15:40<2:13:06, 3.24s/it]
65%|████████████████████████████████████████████████████████████████▏ | 4672/7135 [4:15:43<2:10:04, 3.17s/it]
65%|████████████████████████████████████████████████████████████████▏ | 4673/7135 [4:15:46<2:08:03, 3.12s/it]
66%|████████████████████████████████████████████████████████████████▏ | 4674/7135 [4:15:49<2:07:13, 3.10s/it]
66%|████████████████████████████████████████████████████████████████▏ | 4675/7135 [4:15:52<2:04:41, 3.04s/it]
66%|████████████████████████████████████████████████████████████████▏ | 4676/7135 [4:15:55<2:09:57, 3.17s/it]
66%|████████████████████████████████████████████████████████████████▏ | 4677/7135 [4:15:59<2:16:42, 3.34s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4678/7135 [4:16:02<2:09:09, 3.15s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4679/7135 [4:16:05<2:11:25, 3.21s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4680/7135 [4:16:08<2:09:10, 3.16s/it]
{'loss': 0.6188, 'grad_norm': 6.375, 'learning_rate': 1.3588110961688084e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.9, 'epoch': 6.56}
66%|████████████████████████████████████████████████████████████████▎ | 4680/7135 [4:16:08<2:09:10, 3.16s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4681/7135 [4:16:11<2:07:48, 3.12s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4682/7135 [4:16:15<2:15:06, 3.30s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4683/7135 [4:16:18<2:12:04, 3.23s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4684/7135 [4:16:21<2:12:18, 3.24s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4685/7135 [4:16:24<2:13:39, 3.27s/it]
66%|████████████████████████████████████████████████████████████████▎ | 4686/7135 [4:16:28<2:10:47, 3.20s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4687/7135 [4:16:30<2:07:30, 3.13s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4688/7135 [4:16:34<2:06:26, 3.10s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4689/7135 [4:16:37<2:08:27, 3.15s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4690/7135 [4:16:40<2:09:53, 3.19s/it]
{'loss': 0.8593, 'grad_norm': 5.4375, 'learning_rate': 1.3488893597535086e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.03, 'epoch': 6.57}
66%|████████████████████████████████████████████████████████████████▍ | 4690/7135 [4:16:40<2:09:53, 3.19s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4691/7135 [4:16:43<2:09:04, 3.17s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4692/7135 [4:16:46<2:06:59, 3.12s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4693/7135 [4:16:49<2:05:30, 3.08s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4694/7135 [4:16:52<2:02:30, 3.01s/it]
66%|████████████████████████████████████████████████████████████████▍ | 4695/7135 [4:16:55<2:06:07, 3.10s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4696/7135 [4:16:59<2:09:09, 3.18s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4697/7135 [4:17:02<2:07:58, 3.15s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4698/7135 [4:17:05<2:10:50, 3.22s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4699/7135 [4:17:09<2:13:21, 3.28s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4700/7135 [4:17:12<2:15:13, 3.33s/it]
{'loss': 0.7954, 'grad_norm': 4.71875, 'learning_rate': 1.3389905788980296e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.26, 'epoch': 6.58}
66%|████████████████████████████████████████████████████████████████▌ | 4700/7135 [4:17:12<2:15:13, 3.33s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4701/7135 [4:17:15<2:15:59, 3.35s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4702/7135 [4:17:19<2:12:41, 3.27s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4703/7135 [4:17:21<2:05:36, 3.10s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4704/7135 [4:17:25<2:09:53, 3.21s/it]
66%|████████████████████████████████████████████████████████████████▌ | 4705/7135 [4:17:28<2:10:16, 3.22s/it]
66%|████████████████████████████████████████████████████████████████▋ | 4706/7135 [4:17:31<2:08:40, 3.18s/it]
66%|████████████████████████████████████████████████████████████████▋ | 4707/7135 [4:17:34<2:07:36, 3.15s/it]
66%|████████████████████████████████████████████████████████████████▋ | 4708/7135 [4:17:37<2:03:05, 3.04s/it]
66%|████████████████████████████████████████████████████████████████▋ | 4709/7135 [4:17:40<2:06:26, 3.13s/it]
66%|████████████████████████████████████████████████████████████████▋ | 4710/7135 [4:17:43<2:03:37, 3.06s/it]
{'loss': 0.7028, 'grad_norm': 4.625, 'learning_rate': 1.3291149510048165e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.47, 'epoch': 6.6}
66%|████████████████████████████████████████████████████████████████▋ | 4710/7135 [4:17:43<2:03:37, 3.06s/it]
66%|██████████████████████████████████████████████████▏ | 4711/7135 [4:17:46<2:04:46, 3.09s/it]
66%|██████████████████████████████████████████████████▏ | 4712/7135 [4:17:50<2:07:05, 3.15s/it]
66%|██████████████████████████████████████████████████▏ | 4713/7135 [4:17:53<2:09:12, 3.20s/it]
66%|██████████████████████████████████████████████████▏ | 4714/7135 [4:17:56<2:12:08, 3.27s/it]
66%|██████████████████████████████████████████████████▏ | 4715/7135 [4:18:00<2:13:51, 3.32s/it]
66%|██████████████████████████████████████████████████▏ | 4716/7135 [4:18:03<2:15:30, 3.36s/it]
66%|██████████████████████████████████████████████████▏ | 4717/7135 [4:18:06<2:13:14, 3.31s/it]
66%|██████████████████████████████████████████████████▎ | 4718/7135 [4:18:09<2:06:52, 3.15s/it]
66%|██████████████████████████████████████████████████▎ | 4719/7135 [4:18:13<2:12:54, 3.30s/it]
66%|██████████████████████████████████████████████████▎ | 4720/7135 [4:18:16<2:14:58, 3.35s/it]
{'loss': 0.7738, 'grad_norm': 4.1875, 'learning_rate': 1.3192626730145986e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.33, 'epoch': 6.61}
66%|██████████████████████████████████████████████████▎ | 4720/7135 [4:18:16<2:14:58, 3.35s/it]
66%|██████████████████████████████████████████████████▎ | 4721/7135 [4:18:19<2:11:32, 3.27s/it]
66%|██████████████████████████████████████████████████▎ | 4722/7135 [4:18:23<2:10:29, 3.24s/it]
66%|██████████████████████████████████████████████████▎ | 4723/7135 [4:18:26<2:17:24, 3.42s/it]
66%|██████████████████████████████████████████████████▎ | 4724/7135 [4:18:30<2:20:52, 3.51s/it]
66%|██████████████████████████████████████████████████▎ | 4725/7135 [4:18:33<2:17:47, 3.43s/it]
66%|██████████████████████████████████████████████████▎ | 4726/7135 [4:18:37<2:19:52, 3.48s/it]
66%|██████████████████████████████████████████████████▎ | 4727/7135 [4:18:40<2:17:37, 3.43s/it]
66%|██████████████████████████████████████████████████▎ | 4728/7135 [4:18:43<2:10:48, 3.26s/it]
66%|██████████████████████████████████████████████████▎ | 4729/7135 [4:18:46<2:08:16, 3.20s/it]
66%|██████████████████████████████████████████████████▍ | 4730/7135 [4:18:49<2:04:46, 3.11s/it]
{'loss': 0.6754, 'grad_norm': 5.53125, 'learning_rate': 1.3094339414024566e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 441.4, 'epoch': 6.63}
66%|██████████████████████████████████████████████████▍ | 4730/7135 [4:18:49<2:04:46, 3.11s/it]
66%|██████████████████████████████████████████████████▍ | 4731/7135 [4:18:52<2:02:04, 3.05s/it]
66%|██████████████████████████████████████████████████▍ | 4732/7135 [4:18:55<1:59:48, 2.99s/it]
66%|██████████████████████████████████████████████████▍ | 4733/7135 [4:18:58<2:05:46, 3.14s/it]
66%|██████████████████████████████████████████████████▍ | 4734/7135 [4:19:01<2:02:58, 3.07s/it]
66%|██████████████████████████████████████████████████▍ | 4735/7135 [4:19:05<2:06:40, 3.17s/it]
66%|██████████████████████████████████████████████████▍ | 4736/7135 [4:19:08<2:11:10, 3.28s/it]
66%|██████████████████████████████████████████████████▍ | 4737/7135 [4:19:11<2:08:15, 3.21s/it]
66%|██████████████████████████████████████████████████▍ | 4738/7135 [4:19:14<2:04:24, 3.11s/it]
66%|██████████████████████████████████████████████████▍ | 4739/7135 [4:19:17<2:04:14, 3.11s/it]
66%|██████████████████████████████████████████████████▍ | 4740/7135 [4:19:20<2:02:47, 3.08s/it]
{'loss': 0.6901, 'grad_norm': 4.3125, 'learning_rate': 1.2996289521739065e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.95, 'epoch': 6.64}
66%|██████████████████████████████████████████████████▍ | 4740/7135 [4:19:20<2:02:47, 3.08s/it]
66%|██████████████████████████████████████████████████▍ | 4741/7135 [4:19:23<2:01:41, 3.05s/it]
66%|██████████████████████████████████████████████████▌ | 4742/7135 [4:19:26<2:03:19, 3.09s/it]
66%|██████████████████████████████████████████████████▌ | 4743/7135 [4:19:29<2:01:01, 3.04s/it]
66%|██████████████████████████████████████████████████▌ | 4744/7135 [4:19:33<2:03:48, 3.11s/it]
67%|██████████████████████████████████████████████████▌ | 4745/7135 [4:19:36<2:11:18, 3.30s/it]
67%|██████████████████████████████████████████████████▌ | 4746/7135 [4:19:39<2:09:02, 3.24s/it]
67%|██████████████████████████████████████████████████▌ | 4747/7135 [4:19:43<2:11:26, 3.30s/it]
67%|██████████████████████████████████████████████████▌ | 4748/7135 [4:19:46<2:09:23, 3.25s/it]
67%|██████████████████████████████████████████████████▌ | 4749/7135 [4:19:49<2:04:16, 3.12s/it]
67%|██████████████████████████████████████████████████▌ | 4750/7135 [4:19:52<2:01:20, 3.05s/it]
{'loss': 0.654, 'grad_norm': 4.6875, 'learning_rate': 1.2898479008609946e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.65, 'epoch': 6.65}
67%|██████████████████████████████████████████████████▌ | 4750/7135 [4:19:52<2:01:20, 3.05s/it]
67%|██████████████████████████████████████████████████▌ | 4751/7135 [4:19:55<2:05:13, 3.15s/it]
67%|██████████████████████████████████████████████████▌ | 4752/7135 [4:19:59<2:16:02, 3.43s/it]
67%|██████████████████████████████████████████████████▋ | 4753/7135 [4:20:02<2:14:15, 3.38s/it]
67%|██████████████████████████████████████████████████▋ | 4754/7135 [4:20:05<2:08:29, 3.24s/it]
67%|██████████████████████████████████████████████████▋ | 4755/7135 [4:20:08<2:07:10, 3.21s/it]
67%|██████████████████████████████████████████████████▋ | 4756/7135 [4:20:12<2:10:58, 3.30s/it]
67%|██████████████████████████████████████████████████▋ | 4757/7135 [4:20:15<2:08:51, 3.25s/it]
67%|██████████████████████████████████████████████████▋ | 4758/7135 [4:20:18<2:09:30, 3.27s/it]
67%|██████████████████████████████████████████████████▋ | 4759/7135 [4:20:22<2:08:31, 3.25s/it]
67%|██████████████████████████████████████████████████▋ | 4760/7135 [4:20:25<2:10:12, 3.29s/it]
{'loss': 0.6897, 'grad_norm': 5.875, 'learning_rate': 1.2800909825183921e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 328.9, 'epoch': 6.67}
67%|██████████████████████████████████████████████████▋ | 4760/7135 [4:20:25<2:10:12, 3.29s/it]
67%|██████████████████████████████████████████████████▋ | 4761/7135 [4:20:28<2:08:23, 3.25s/it]
67%|██████████████████████████████████████████████████▋ | 4762/7135 [4:20:31<2:09:14, 3.27s/it]
67%|██████████████████████████████████████████████████▋ | 4763/7135 [4:20:35<2:06:20, 3.20s/it]
67%|██████████████████████████████████████████████████▋ | 4764/7135 [4:20:38<2:04:19, 3.15s/it]
67%|██████████████████████████████████████████████████▊ | 4765/7135 [4:20:41<2:03:37, 3.13s/it]
67%|██████████████████████████████████████████████████▊ | 4766/7135 [4:20:44<2:02:25, 3.10s/it]
67%|██████████████████████████████████████████████████▊ | 4767/7135 [4:20:47<2:02:29, 3.10s/it]
67%|██████████████████████████████████████████████████▊ | 4768/7135 [4:20:50<2:03:23, 3.13s/it]
67%|██████████████████████████████████████████████████▊ | 4769/7135 [4:20:54<2:08:36, 3.26s/it]
67%|██████████████████████████████████████████████████▊ | 4770/7135 [4:20:56<2:04:19, 3.15s/it]
{'loss': 0.8234, 'grad_norm': 5.875, 'learning_rate': 1.2703583917195095e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.38, 'epoch': 6.68}
67%|██████████████████████████████████████████████████▊ | 4770/7135 [4:20:56<2:04:19, 3.15s/it]
67%|██████████████████████████████████████████████████▊ | 4771/7135 [4:21:00<2:03:56, 3.15s/it]
67%|██████████████████████████████████████████████████▊ | 4772/7135 [4:21:02<1:59:05, 3.02s/it]
67%|██████████████████████████████████████████████████▊ | 4773/7135 [4:21:05<1:59:06, 3.03s/it]
67%|██████████████████████████████████████████████████▊ | 4774/7135 [4:21:09<2:03:32, 3.14s/it]
67%|██████████████████████████████████████████████████▊ | 4775/7135 [4:21:12<2:03:38, 3.14s/it]
67%|██████████████████████████████████████████████████▊ | 4776/7135 [4:21:16<2:13:01, 3.38s/it]
67%|██████████████████████████████████████████████████▉ | 4777/7135 [4:21:19<2:05:55, 3.20s/it]
67%|██████████████████████████████████████████████████▉ | 4778/7135 [4:21:22<2:04:14, 3.16s/it]
67%|██████████████████████████████████████████████████▉ | 4779/7135 [4:21:25<2:03:08, 3.14s/it]
67%|██████████████████████████████████████████████████▉ | 4780/7135 [4:21:28<2:07:07, 3.24s/it]
{'loss': 0.7265, 'grad_norm': 4.125, 'learning_rate': 1.2606503225526145e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.2, 'epoch': 6.7}
67%|██████████████████████████████████████████████████▉ | 4780/7135 [4:21:28<2:07:07, 3.24s/it]
67%|██████████████████████████████████████████████████▉ | 4781/7135 [4:21:31<2:05:32, 3.20s/it]
67%|██████████████████████████████████████████████████▉ | 4782/7135 [4:21:34<2:03:14, 3.14s/it]
67%|██████████████████████████████████████████████████▉ | 4783/7135 [4:21:37<2:02:50, 3.13s/it]
67%|██████████████████████████████████████████████████▉ | 4784/7135 [4:21:41<2:06:11, 3.22s/it]
67%|██████████████████████████████████████████████████▉ | 4785/7135 [4:21:44<2:06:07, 3.22s/it]
67%|██████████████████████████████████████████████████▉ | 4786/7135 [4:21:47<2:00:31, 3.08s/it]
67%|██████████████████████████████████████████████████▉ | 4787/7135 [4:21:50<1:57:23, 3.00s/it]
67%|███████████████████████████████████████████████████ | 4788/7135 [4:21:53<2:02:36, 3.13s/it]
67%|███████████████████████████████████████████████████ | 4789/7135 [4:21:57<2:10:13, 3.33s/it]
67%|███████████████████████████████████████████████████ | 4790/7135 [4:22:00<2:09:42, 3.32s/it]
{'loss': 0.7041, 'grad_norm': 3.890625, 'learning_rate': 1.2509669686169619e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 335.89, 'epoch': 6.71}
67%|███████████████████████████████████████████████████ | 4790/7135 [4:22:00<2:09:42, 3.32s/it]
67%|███████████████████████████████████████████████████ | 4791/7135 [4:22:04<2:12:10, 3.38s/it]
67%|███████████████████████████████████████████████████ | 4792/7135 [4:22:07<2:12:56, 3.40s/it]
67%|███████████████████████████████████████████████████ | 4793/7135 [4:22:10<2:06:00, 3.23s/it]
67%|███████████████████████████████████████████████████ | 4794/7135 [4:22:13<2:02:39, 3.14s/it]
67%|███████████████████████████████████████████████████ | 4795/7135 [4:22:17<2:14:30, 3.45s/it]
67%|███████████████████████████████████████████████████ | 4796/7135 [4:22:20<2:12:17, 3.39s/it]
67%|███████████████████████████████████████████████████ | 4797/7135 [4:22:24<2:09:34, 3.33s/it]
67%|███████████████████████████████████████████████████ | 4798/7135 [4:22:26<2:04:07, 3.19s/it]
67%|███████████████████████████████████████████████████ | 4799/7135 [4:22:30<2:04:57, 3.21s/it]
67%|███████████████████████████████████████████████████▏ | 4800/7135 [4:22:33<2:10:03, 3.34s/it]
{'loss': 0.8638, 'grad_norm': 3.953125, 'learning_rate': 1.2413085230189322e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 308.89, 'epoch': 6.72}
67%|███████████████████████████████████████████████████▏ | 4800/7135 [4:22:33<2:10:03, 3.34s/it]
67%|███████████████████████████████████████████████████▏ | 4801/7135 [4:22:37<2:11:09, 3.37s/it]
67%|███████████████████████████████████████████████████▏ | 4802/7135 [4:22:40<2:04:59, 3.21s/it]
67%|███████████████████████████████████████████████████▏ | 4803/7135 [4:22:43<2:05:57, 3.24s/it]
67%|███████████████████████████████████████████████████▏ | 4804/7135 [4:22:46<2:06:22, 3.25s/it]
67%|███████████████████████████████████████████████████▏ | 4805/7135 [4:22:49<2:04:41, 3.21s/it]
67%|███████████████████████████████████████████████████▏ | 4806/7135 [4:22:53<2:08:39, 3.31s/it]
67%|███████████████████████████████████████████████████▏ | 4807/7135 [4:22:56<2:11:23, 3.39s/it]
67%|███████████████████████████████████████████████████▏ | 4808/7135 [4:22:59<2:04:18, 3.21s/it]
67%|███████████████████████████████████████████████████▏ | 4809/7135 [4:23:02<2:03:23, 3.18s/it]
67%|███████████████████████████████████████████████████▏ | 4810/7135 [4:23:05<2:01:40, 3.14s/it]
{'loss': 0.7859, 'grad_norm': 6.1875, 'learning_rate': 1.2316751783681853e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.03, 'epoch': 6.74}
67%|███████████████████████████████████████████████████▏ | 4810/7135 [4:23:05<2:01:40, 3.14s/it]
67%|███████████████████████████████████████████████████▏ | 4811/7135 [4:23:08<1:58:16, 3.05s/it]
67%|███████████████████████████████████████████████████▎ | 4812/7135 [4:23:11<2:00:00, 3.10s/it]
67%|███████████████████████████████████████████████████▎ | 4813/7135 [4:23:14<1:55:32, 2.99s/it]
67%|███████████████████████████████████████████████████▎ | 4814/7135 [4:23:18<1:59:51, 3.10s/it]
67%|███████████████████████████████████████████████████▎ | 4815/7135 [4:23:21<2:03:01, 3.18s/it]
67%|███████████████████████████████████████████████████▎ | 4816/7135 [4:23:24<2:02:12, 3.16s/it]
68%|███████████████████████████████████████████████████▎ | 4817/7135 [4:23:27<1:59:43, 3.10s/it]
68%|███████████████████████████████████████████████████▎ | 4818/7135 [4:23:30<2:02:10, 3.16s/it]
68%|███████████████████████████████████████████████████▎ | 4819/7135 [4:23:33<1:58:30, 3.07s/it]
68%|███████████████████████████████████████████████████▎ | 4820/7135 [4:23:36<1:57:31, 3.05s/it]
{'loss': 0.7639, 'grad_norm': 5.21875, 'learning_rate': 1.222067126773811e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 413.71, 'epoch': 6.75}
68%|███████████████████████████████████████████████████▎ | 4820/7135 [4:23:36<1:57:31, 3.05s/it]
68%|███████████████████████████████████████████████████▎ | 4821/7135 [4:23:39<2:00:29, 3.12s/it]
68%|███████████████████████████████████████████████████▎ | 4822/7135 [4:23:43<2:04:08, 3.22s/it]
68%|███████████████████████████████████████████████████▎ | 4823/7135 [4:23:46<2:02:26, 3.18s/it]
68%|███████████████████████████████████████████████████▍ | 4824/7135 [4:23:49<2:01:52, 3.16s/it]
68%|███████████████████████████████████████████████████▍ | 4825/7135 [4:23:53<2:05:27, 3.26s/it]
68%|███████████████████████████████████████████████████▍ | 4826/7135 [4:23:56<2:02:50, 3.19s/it]
68%|███████████████████████████████████████████████████▍ | 4827/7135 [4:23:59<2:05:57, 3.27s/it]
68%|███████████████████████████████████████████████████▍ | 4828/7135 [4:24:02<2:04:30, 3.24s/it]
68%|███████████████████████████████████████████████████▍ | 4829/7135 [4:24:05<2:02:45, 3.19s/it]
68%|███████████████████████████████████████████████████▍ | 4830/7135 [4:24:08<2:01:36, 3.17s/it]
{'loss': 0.6597, 'grad_norm': 5.8125, 'learning_rate': 1.2124845598405036e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.52, 'epoch': 6.77}
68%|███████████████████████████████████████████████████▍ | 4830/7135 [4:24:08<2:01:36, 3.17s/it]
68%|███████████████████████████████████████████████████▍ | 4831/7135 [4:24:12<2:04:48, 3.25s/it]
68%|███████████████████████████████████████████████████▍ | 4832/7135 [4:24:16<2:13:38, 3.48s/it]
68%|███████████████████████████████████████████████████▍ | 4833/7135 [4:24:19<2:05:09, 3.26s/it]
68%|███████████████████████████████████████████████████▍ | 4834/7135 [4:24:22<2:06:57, 3.31s/it]
68%|███████████████████████████████████████████████████▌ | 4835/7135 [4:24:25<2:07:02, 3.31s/it]
68%|███████████████████████████████████████████████████▌ | 4836/7135 [4:24:28<2:01:45, 3.18s/it]
68%|███████████████████████████████████████████████████▌ | 4837/7135 [4:24:31<1:56:46, 3.05s/it]
68%|███████████████████████████████████████████████████▌ | 4838/7135 [4:24:34<1:53:51, 2.97s/it]
68%|███████████████████████████████████████████████████▌ | 4839/7135 [4:24:37<1:55:50, 3.03s/it]
68%|███████████████████████████████████████████████████▌ | 4840/7135 [4:24:41<2:03:56, 3.24s/it]
{'loss': 0.7982, 'grad_norm': 5.21875, 'learning_rate': 1.2029276686647423e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 300.1, 'epoch': 6.78}
68%|███████████████████████████████████████████████████▌ | 4840/7135 [4:24:41<2:03:56, 3.24s/it]
68%|███████████████████████████████████████████████████▌ | 4841/7135 [4:24:44<2:08:24, 3.36s/it]
68%|███████████████████████████████████████████████████▌ | 4842/7135 [4:24:47<2:04:14, 3.25s/it]
68%|███████████████████████████████████████████████████▌ | 4843/7135 [4:24:51<2:13:13, 3.49s/it]
68%|███████████████████████████████████████████████████▌ | 4844/7135 [4:24:55<2:12:50, 3.48s/it]
68%|███████████████████████████████████████████████████▌ | 4845/7135 [4:24:58<2:09:29, 3.39s/it]
68%|███████████████████████████████████████████████████▌ | 4846/7135 [4:25:01<2:02:10, 3.20s/it]
68%|███████████████████████████████████████████████████▋ | 4847/7135 [4:25:04<2:00:30, 3.16s/it]
68%|███████████████████████████████████████████████████▋ | 4848/7135 [4:25:07<2:00:09, 3.15s/it]
68%|███████████████████████████████████████████████████▋ | 4849/7135 [4:25:10<2:02:30, 3.22s/it]
68%|███████████████████████████████████████████████████▋ | 4850/7135 [4:25:14<2:04:29, 3.27s/it]
{'loss': 0.8808, 'grad_norm': 5.78125, 'learning_rate': 1.1933966438309752e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 433.5, 'epoch': 6.79}
68%|███████████████████████████████████████████████████▋ | 4850/7135 [4:25:14<2:04:29, 3.27s/it]
68%|███████████████████████████████████████████████████▋ | 4851/7135 [4:25:17<2:06:09, 3.31s/it]
68%|███████████████████████████████████████████████████▋ | 4852/7135 [4:25:20<2:05:14, 3.29s/it]
68%|███████████████████████████████████████████████████▋ | 4853/7135 [4:25:24<2:03:28, 3.25s/it]
68%|███████████████████████████████████████████████████▋ | 4854/7135 [4:25:27<2:01:18, 3.19s/it]
68%|███████████████████████████████████████████████████▋ | 4855/7135 [4:25:30<1:58:43, 3.12s/it]
68%|███████████████████████████████████████████████████▋ | 4856/7135 [4:25:32<1:56:01, 3.05s/it]
68%|███████████████████████████████████████████████████▋ | 4857/7135 [4:25:35<1:52:23, 2.96s/it]
68%|███████████████████████████████████████████████████▋ | 4858/7135 [4:25:39<1:57:15, 3.09s/it]
68%|███████████████████████████████████████████████████▊ | 4859/7135 [4:25:42<1:59:12, 3.14s/it]
68%|███████████████████████████████████████████████████▊ | 4860/7135 [4:25:45<1:59:41, 3.16s/it]
{'loss': 0.7114, 'grad_norm': 3.671875, 'learning_rate': 1.1838916754078214e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.35, 'epoch': 6.81}
68%|███████████████████████████████████████████████████▊ | 4860/7135 [4:25:45<1:59:41, 3.16s/it]
68%|███████████████████████████████████████████████████▊ | 4861/7135 [4:25:48<2:00:02, 3.17s/it]
68%|███████████████████████████████████████████████████▊ | 4862/7135 [4:25:51<1:57:11, 3.09s/it]
68%|███████████████████████████████████████████████████▊ | 4863/7135 [4:25:55<2:01:53, 3.22s/it]
68%|███████████████████████████████████████████████████▊ | 4864/7135 [4:25:58<1:59:51, 3.17s/it]
68%|███████████████████████████████████████████████████▊ | 4865/7135 [4:26:01<1:59:16, 3.15s/it]
68%|███████████████████████████████████████████████████▊ | 4866/7135 [4:26:04<1:56:52, 3.09s/it]
68%|███████████████████████████████████████████████████▊ | 4867/7135 [4:26:07<2:00:35, 3.19s/it]
68%|███████████████████████████████████████████████████▊ | 4868/7135 [4:26:10<2:00:57, 3.20s/it]
68%|███████████████████████████████████████████████████▊ | 4869/7135 [4:26:14<2:03:00, 3.26s/it]
68%|███████████████████████████████████████████████████▊ | 4870/7135 [4:26:17<2:05:28, 3.32s/it]
{'loss': 0.6597, 'grad_norm': 4.59375, 'learning_rate': 1.1744129529442832e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 402.9, 'epoch': 6.82}
68%|███████████████████████████████████████████████████▊ | 4870/7135 [4:26:17<2:05:28, 3.32s/it]
68%|███████████████████████████████████████████████████▉ | 4871/7135 [4:26:21<2:05:15, 3.32s/it]
68%|███████████████████████████████████████████████████▉ | 4872/7135 [4:26:24<2:07:48, 3.39s/it]
68%|███████████████████████████████████████████████████▉ | 4873/7135 [4:26:27<2:01:20, 3.22s/it]
68%|███████████████████████████████████████████████████▉ | 4874/7135 [4:26:30<2:03:27, 3.28s/it]
68%|███████████████████████████████████████████████████▉ | 4875/7135 [4:26:33<1:59:36, 3.18s/it]
68%|███████████████████████████████████████████████████▉ | 4876/7135 [4:26:36<1:57:24, 3.12s/it]
68%|███████████████████████████████████████████████████▉ | 4877/7135 [4:26:39<1:56:25, 3.09s/it]
68%|███████████████████████████████████████████████████▉ | 4878/7135 [4:26:42<1:54:57, 3.06s/it]
68%|███████████████████████████████████████████████████▉ | 4879/7135 [4:26:46<2:00:26, 3.20s/it]
68%|███████████████████████████████████████████████████▉ | 4880/7135 [4:26:49<1:59:02, 3.17s/it]
{'loss': 0.69, 'grad_norm': 5.125, 'learning_rate': 1.1649606654659604e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.55, 'epoch': 6.84}
68%|███████████████████████████████████████████████████▉ | 4880/7135 [4:26:49<1:59:02, 3.17s/it]
68%|███████████████████████████████████████████████████▉ | 4881/7135 [4:26:52<1:56:07, 3.09s/it]
68%|████████████████████████████████████████████████████ | 4882/7135 [4:26:55<1:59:29, 3.18s/it]
68%|████████████████████████████████████████████████████ | 4883/7135 [4:26:58<1:58:40, 3.16s/it]
68%|████████████████████████████████████████████████████ | 4884/7135 [4:27:01<1:57:47, 3.14s/it]
68%|████████████████████████████████████████████████████ | 4885/7135 [4:27:05<1:58:02, 3.15s/it]
68%|████████████████████████████████████████████████████ | 4886/7135 [4:27:08<2:05:30, 3.35s/it]
68%|████████████████████████████████████████████████████ | 4887/7135 [4:27:12<2:06:55, 3.39s/it]
69%|████████████████████████████████████████████████████ | 4888/7135 [4:27:15<2:05:46, 3.36s/it]
69%|████████████████████████████████████████████████████ | 4889/7135 [4:27:18<2:04:18, 3.32s/it]
69%|████████████████████████████████████████████████████ | 4890/7135 [4:27:22<2:04:16, 3.32s/it]
{'loss': 0.7452, 'grad_norm': 2.875, 'learning_rate': 1.1555350014712851e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.83, 'epoch': 6.85}
69%|████████████████████████████████████████████████████ | 4890/7135 [4:27:22<2:04:16, 3.32s/it]
69%|████████████████████████████████████████████████████ | 4891/7135 [4:27:25<2:03:53, 3.31s/it]
69%|████████████████████████████████████████████████████ | 4892/7135 [4:27:28<2:03:20, 3.30s/it]
69%|████████████████████████████████████████████████████ | 4893/7135 [4:27:31<1:56:01, 3.11s/it]
69%|████████████████████████████████████████████████████▏ | 4894/7135 [4:27:34<1:55:46, 3.10s/it]
69%|████████████████████████████████████████████████████▏ | 4895/7135 [4:27:38<1:59:56, 3.21s/it]
69%|████████████████████████████████████████████████████▏ | 4896/7135 [4:27:41<1:57:41, 3.15s/it]
69%|████████████████████████████████████████████████████▏ | 4897/7135 [4:27:44<1:56:56, 3.14s/it]
69%|████████████████████████████████████████████████████▏ | 4898/7135 [4:27:47<1:58:46, 3.19s/it]
69%|████████████████████████████████████████████████████▏ | 4899/7135 [4:27:50<1:58:52, 3.19s/it]
69%|████████████████████████████████████████████████████▏ | 4900/7135 [4:27:53<1:58:05, 3.17s/it]
{'loss': 0.6641, 'grad_norm': 4.59375, 'learning_rate': 1.1461361489277609e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 413.2, 'epoch': 6.86}
69%|████████████████████████████████████████████████████▏ | 4900/7135 [4:27:53<1:58:05, 3.17s/it]
69%|████████████████████████████████████████████████████▏ | 4901/7135 [4:27:57<2:01:35, 3.27s/it]
69%|████████████████████████████████████████████████████▏ | 4902/7135 [4:28:00<1:59:37, 3.21s/it]
69%|████████████████████████████████████████████████████▏ | 4903/7135 [4:28:03<2:02:13, 3.29s/it]
69%|████████████████████████████████████████████████████▏ | 4904/7135 [4:28:07<2:07:04, 3.42s/it]
69%|████████████████████████████████████████████████████▏ | 4905/7135 [4:28:10<2:02:53, 3.31s/it]
69%|████████████████████████████████████████████████████▎ | 4906/7135 [4:28:13<1:59:08, 3.21s/it]
69%|████████████████████████████████████████████████████▎ | 4907/7135 [4:28:16<1:59:42, 3.22s/it]
69%|████████████████████████████████████████████████████▎ | 4908/7135 [4:28:20<2:00:21, 3.24s/it]
69%|████████████████████████████████████████████████████▎ | 4909/7135 [4:28:23<1:58:09, 3.18s/it]
69%|████████████████████████████████████████████████████▎ | 4910/7135 [4:28:26<1:59:19, 3.22s/it]
{'loss': 0.6674, 'grad_norm': 4.75, 'learning_rate': 1.1367642952682154e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 340.85, 'epoch': 6.88}
69%|████████████████████████████████████████████████████▎ | 4910/7135 [4:28:26<1:59:19, 3.22s/it]
69%|████████████████████████████████████████████████████▎ | 4911/7135 [4:28:29<2:00:59, 3.26s/it]
69%|████████████████████████████████████████████████████▎ | 4912/7135 [4:28:33<2:02:15, 3.30s/it]
69%|████████████████████████████████████████████████████▎ | 4913/7135 [4:28:36<1:59:13, 3.22s/it]
69%|████████████████████████████████████████████████████▎ | 4914/7135 [4:28:39<2:00:39, 3.26s/it]
69%|████████████████████████████████████████████████████▎ | 4915/7135 [4:28:42<2:02:11, 3.30s/it]
69%|████████████████████████████████████████████████████▎ | 4916/7135 [4:28:46<2:02:38, 3.32s/it]
69%|████████████████████████████████████████████████████▎ | 4917/7135 [4:28:49<2:01:32, 3.29s/it]
69%|████████████████████████████████████████████████████▍ | 4918/7135 [4:28:52<1:59:18, 3.23s/it]
69%|████████████████████████████████████████████████████▍ | 4919/7135 [4:28:55<1:59:14, 3.23s/it]
69%|████████████████████████████████████████████████████▍ | 4920/7135 [4:28:58<1:55:04, 3.12s/it]
{'loss': 0.7038, 'grad_norm': 6.5, 'learning_rate': 1.1274196273870603e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.26, 'epoch': 6.89}
69%|████████████████████████████████████████████████████▍ | 4920/7135 [4:28:58<1:55:04, 3.12s/it]
69%|████████████████████████████████████████████████████▍ | 4921/7135 [4:29:01<1:54:44, 3.11s/it]
69%|████████████████████████████████████████████████████▍ | 4922/7135 [4:29:04<1:54:28, 3.10s/it]
69%|████████████████████████████████████████████████████▍ | 4923/7135 [4:29:07<1:50:25, 3.00s/it]
69%|████████████████████████████████████████████████████▍ | 4924/7135 [4:29:10<1:52:35, 3.06s/it]
69%|████████████████████████████████████████████████████▍ | 4925/7135 [4:29:13<1:49:16, 2.97s/it]
69%|████████████████████████████████████████████████████▍ | 4926/7135 [4:29:16<1:49:39, 2.98s/it]
69%|████████████████████████████████████████████████████▍ | 4927/7135 [4:29:19<1:51:36, 3.03s/it]
69%|████████████████████████████████████████████████████▍ | 4928/7135 [4:29:22<1:50:00, 2.99s/it]
69%|████████████████████████████████████████████████████▌ | 4929/7135 [4:29:25<1:50:15, 3.00s/it]
69%|████████████████████████████████████████████████████▌ | 4930/7135 [4:29:29<1:55:07, 3.13s/it]
{'loss': 0.727, 'grad_norm': 5.0625, 'learning_rate': 1.1181023316365692e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.72, 'epoch': 6.91}
69%|████████████████████████████████████████████████████▌ | 4930/7135 [4:29:29<1:55:07, 3.13s/it]
69%|████████████████████████████████████████████████████▌ | 4931/7135 [4:29:32<1:53:02, 3.08s/it]
69%|████████████████████████████████████████████████████▌ | 4932/7135 [4:29:35<2:01:33, 3.31s/it]
69%|████████████████████████████████████████████████████▌ | 4933/7135 [4:29:39<2:05:50, 3.43s/it]
69%|████████████████████████████████████████████████████▌ | 4934/7135 [4:29:43<2:06:51, 3.46s/it]
69%|████████████████████████████████████████████████████▌ | 4935/7135 [4:29:46<2:05:06, 3.41s/it]
69%|████████████████████████████████████████████████████▌ | 4936/7135 [4:29:49<2:03:13, 3.36s/it]
69%|████████████████████████████████████████████████████▌ | 4937/7135 [4:29:53<2:06:20, 3.45s/it]
69%|████████████████████████████████████████████████████▌ | 4938/7135 [4:29:57<2:18:45, 3.79s/it]
69%|████████████████████████████████████████████████████▌ | 4939/7135 [4:30:01<2:12:12, 3.61s/it]
69%|████████████████████████████████████████████████████▌ | 4940/7135 [4:30:04<2:07:33, 3.49s/it]
{'loss': 0.8056, 'grad_norm': 6.0625, 'learning_rate': 1.1088125938231548e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 514.44, 'epoch': 6.92}
69%|████████████████████████████████████████████████████▌ | 4940/7135 [4:30:04<2:07:33, 3.49s/it]
69%|████████████████████████████████████████████████████▋ | 4941/7135 [4:30:07<2:08:04, 3.50s/it]
69%|████████████████████████████████████████████████████▋ | 4942/7135 [4:30:11<2:10:06, 3.56s/it]
69%|████████████████████████████████████████████████████▋ | 4943/7135 [4:30:14<2:01:22, 3.32s/it]
69%|████████████████████████████████████████████████████▋ | 4944/7135 [4:30:17<2:02:06, 3.34s/it]
69%|████████████████████████████████████████████████████▋ | 4945/7135 [4:30:21<2:03:43, 3.39s/it]
69%|████████████████████████████████████████████████████▋ | 4946/7135 [4:30:24<2:05:37, 3.44s/it]
69%|████████████████████████████████████████████████████▋ | 4947/7135 [4:30:28<2:10:51, 3.59s/it]
69%|████████████████████████████████████████████████████▋ | 4948/7135 [4:30:32<2:09:46, 3.56s/it]
69%|████████████████████████████████████████████████████▋ | 4949/7135 [4:30:35<2:01:29, 3.33s/it]
69%|████████████████████████████████████████████████████▋ | 4950/7135 [4:30:39<2:10:47, 3.59s/it]
{'loss': 0.6629, 'grad_norm': 1.390625, 'learning_rate': 1.0995505992036668e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.19, 'epoch': 6.93}
69%|████████████████████████████████████████████████████▋ | 4950/7135 [4:30:39<2:10:47, 3.59s/it]
69%|████████████████████████████████████████████████████▋ | 4951/7135 [4:30:42<2:09:56, 3.57s/it]
69%|████████████████████████████████████████████████████▋ | 4952/7135 [4:30:45<2:00:58, 3.32s/it]
69%|████████████████████████████████████████████████████▊ | 4953/7135 [4:30:48<1:55:08, 3.17s/it]
69%|████████████████████████████████████████████████████▊ | 4954/7135 [4:30:51<1:52:19, 3.09s/it]
69%|████████████████████████████████████████████████████▊ | 4955/7135 [4:30:54<1:50:22, 3.04s/it]
69%|████████████████████████████████████████████████████▊ | 4956/7135 [4:30:57<1:52:06, 3.09s/it]
69%|████████████████████████████████████████████████████▊ | 4957/7135 [4:31:00<1:50:32, 3.05s/it]
69%|████████████████████████████████████████████████████▊ | 4958/7135 [4:31:03<1:54:58, 3.17s/it]
70%|████████████████████████████████████████████████████▊ | 4959/7135 [4:31:07<1:57:59, 3.25s/it]
70%|████████████████████████████████████████████████████▊ | 4960/7135 [4:31:09<1:51:17, 3.07s/it]
{'loss': 0.7457, 'grad_norm': 5.71875, 'learning_rate': 1.0903165324817009e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.95, 'epoch': 6.95}
70%|████████████████████████████████████████████████████▊ | 4960/7135 [4:31:09<1:51:17, 3.07s/it]
70%|████████████████████████████████████████████████████▊ | 4961/7135 [4:31:12<1:50:09, 3.04s/it]
70%|████████████████████████████████████████████████████▊ | 4962/7135 [4:31:16<1:57:07, 3.23s/it]
70%|████████████████████████████████████████████████████▊ | 4963/7135 [4:31:19<1:58:06, 3.26s/it]
70%|████████████████████████████████████████████████████▉ | 4964/7135 [4:31:24<2:10:56, 3.62s/it]
70%|████████████████████████████████████████████████████▉ | 4965/7135 [4:31:27<2:02:01, 3.37s/it]
70%|████████████████████████████████████████████████████▉ | 4966/7135 [4:31:29<1:57:11, 3.24s/it]
70%|████████████████████████████████████████████████████▉ | 4967/7135 [4:31:33<2:00:31, 3.34s/it]
70%|████████████████████████████████████████████████████▉ | 4968/7135 [4:31:36<1:55:18, 3.19s/it]
70%|████████████████████████████████████████████████████▉ | 4969/7135 [4:31:40<2:05:59, 3.49s/it]
70%|████████████████████████████████████████████████████▉ | 4970/7135 [4:31:43<1:57:24, 3.25s/it]
{'loss': 0.7126, 'grad_norm': 5.375, 'learning_rate': 1.081110577803908e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 530.49, 'epoch': 6.96}
70%|████████████████████████████████████████████████████▉ | 4970/7135 [4:31:43<1:57:24, 3.25s/it]
70%|████████████████████████████████████████████████████▉ | 4971/7135 [4:31:46<1:57:41, 3.26s/it]
70%|████████████████████████████████████████████████████▉ | 4972/7135 [4:31:49<1:55:03, 3.19s/it]
70%|████████████████████████████████████████████████████▉ | 4973/7135 [4:31:52<1:54:51, 3.19s/it]
70%|████████████████████████████████████████████████████▉ | 4974/7135 [4:31:56<1:55:39, 3.21s/it]
70%|████████████████████████████████████████████████████▉ | 4975/7135 [4:31:59<1:59:21, 3.32s/it]
70%|█████████████████████████████████████████████████████ | 4976/7135 [4:32:03<2:00:27, 3.35s/it]
70%|█████████████████████████████████████████████████████ | 4977/7135 [4:32:06<2:02:01, 3.39s/it]
70%|█████████████████████████████████████████████████████ | 4978/7135 [4:32:09<1:57:50, 3.28s/it]
70%|█████████████████████████████████████████████████████ | 4979/7135 [4:32:12<1:54:53, 3.20s/it]
70%|█████████████████████████████████████████████████████ | 4980/7135 [4:32:15<1:54:01, 3.17s/it]
{'loss': 0.7928, 'grad_norm': 5.40625, 'learning_rate': 1.0719329187563272e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.52, 'epoch': 6.98}
70%|█████████████████████████████████████████████████████ | 4980/7135 [4:32:15<1:54:01, 3.17s/it]
70%|█████████████████████████████████████████████████████ | 4981/7135 [4:32:18<1:53:39, 3.17s/it]
70%|█████████████████████████████████████████████████████ | 4982/7135 [4:32:21<1:53:50, 3.17s/it]
70%|█████████████████████████████████████████████████████ | 4983/7135 [4:32:24<1:50:28, 3.08s/it]
70%|█████████████████████████████████████████████████████ | 4984/7135 [4:32:27<1:48:22, 3.02s/it]
70%|█████████████████████████████████████████████████████ | 4985/7135 [4:32:30<1:48:15, 3.02s/it]
70%|█████████████████████████████████████████████████████ | 4986/7135 [4:32:33<1:50:02, 3.07s/it]
70%|█████████████████████████████████████████████████████ | 4987/7135 [4:32:37<1:51:00, 3.10s/it]
70%|█████████████████████████████████████████████████████▏ | 4988/7135 [4:32:40<1:55:46, 3.24s/it]
70%|█████████████████████████████████████████████████████▏ | 4989/7135 [4:32:44<1:57:22, 3.28s/it]
70%|█████████████████████████████████████████████████████▏ | 4990/7135 [4:32:47<2:00:26, 3.37s/it]
{'loss': 0.6868, 'grad_norm': 5.09375, 'learning_rate': 1.0627837383607248e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.64, 'epoch': 6.99}
70%|█████████████████████████████████████████████████████▏ | 4990/7135 [4:32:47<2:00:26, 3.37s/it]
70%|█████████████████████████████████████████████████████▏ | 4991/7135 [4:32:50<1:55:11, 3.22s/it]
70%|█████████████████████████████████████████████████████▏ | 4992/7135 [4:32:53<1:51:50, 3.13s/it]
70%|█████████████████████████████████████████████████████▏ | 4993/7135 [4:32:56<1:49:59, 3.08s/it]
70%|█████████████████████████████████████████████████████▏ | 4994/7135 [4:32:59<1:51:03, 3.11s/it]
70%|█████████████████████████████████████████████████████▏ | 4995/7135 [4:33:03<2:02:44, 3.44s/it]
70%|█████████████████████████████████████████████████████▏ | 4996/7135 [4:33:06<1:58:07, 3.31s/it]
70%|█████████████████████████████████████████████████████▏ | 4997/7135 [4:33:09<1:53:58, 3.20s/it]
70%|█████████████████████████████████████████████████████▏ | 4998/7135 [4:33:11<1:34:22, 2.65s/it][2025-12-23 18:57:16,763] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-4998
70%|████████████████████████████████████████████████████▌ | 4999/7135 [4:34:12<12:03:10, 20.31s/it]
70%|█████████████████████████████████████████████████████▎ | 5000/7135 [4:34:15<8:58:00, 15.12s/it]
{'loss': 0.6578, 'grad_norm': 5.0625, 'learning_rate': 1.0536632190709414e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 362.78, 'epoch': 7.0}
70%|█████████████████████████████████████████████████████▎ | 5000/7135 [4:34:15<8:58:00, 15.12s/it]
70%|█████████████████████████████████████████████████████▎ | 5001/7135 [4:34:18<6:50:59, 11.56s/it]
70%|█████████████████████████████████████████████████████▎ | 5002/7135 [4:34:22<5:21:35, 9.05s/it]
70%|█████████████████████████████████████████████████████▎ | 5003/7135 [4:34:25<4:24:29, 7.44s/it]
70%|█████████████████████████████████████████████████████▎ | 5004/7135 [4:34:29<3:40:35, 6.21s/it]
70%|█████████████████████████████████████████████████████▎ | 5005/7135 [4:34:32<3:06:22, 5.25s/it]
70%|█████████████████████████████████████████████████████▎ | 5006/7135 [4:34:34<2:40:56, 4.54s/it]
70%|█████████████████████████████████████████████████████▎ | 5007/7135 [4:34:37<2:20:54, 3.97s/it]
70%|█████████████████████████████████████████████████████▎ | 5008/7135 [4:34:40<2:12:39, 3.74s/it]
70%|█████████████████████████████████████████████████████▎ | 5009/7135 [4:34:43<2:04:25, 3.51s/it]
70%|█████████████████████████████████████████████████████▎ | 5010/7135 [4:34:47<2:08:06, 3.62s/it]
{'loss': 0.7349, 'grad_norm': 5.53125, 'learning_rate': 1.0445715427692557e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 313.0, 'epoch': 7.02}
70%|█████████████████████████████████████████████████████▎ | 5010/7135 [4:34:47<2:08:06, 3.62s/it]
70%|█████████████████████████████████████████████████████▍ | 5011/7135 [4:34:50<2:04:11, 3.51s/it]
70%|█████████████████████████████████████████████████████▍ | 5012/7135 [4:34:53<1:57:38, 3.32s/it]
70%|█████████████████████████████████████████████████████▍ | 5013/7135 [4:34:56<1:52:25, 3.18s/it]
70%|█████████████████████████████████████████████████████▍ | 5014/7135 [4:34:59<1:50:37, 3.13s/it]
70%|█████████████████████████████████████████████████████▍ | 5015/7135 [4:35:03<1:53:18, 3.21s/it]
70%|█████████████████████████████████████████████████████▍ | 5016/7135 [4:35:06<1:54:17, 3.24s/it]
70%|█████████████████████████████████████████████████████▍ | 5017/7135 [4:35:10<1:58:56, 3.37s/it]
70%|█████████████████████████████████████████████████████▍ | 5018/7135 [4:35:13<1:55:03, 3.26s/it]
70%|█████████████████████████████████████████████████████▍ | 5019/7135 [4:35:15<1:48:17, 3.07s/it]
70%|█████████████████████████████████████████████████████▍ | 5020/7135 [4:35:19<1:51:33, 3.16s/it]
{'loss': 0.6242, 'grad_norm': 5.1875, 'learning_rate': 1.0355088907627565e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 348.76, 'epoch': 7.03}
70%|█████████████████████████████████████████████████████▍ | 5020/7135 [4:35:19<1:51:33, 3.16s/it]
70%|█████████████████████████████████████████████████████▍ | 5021/7135 [4:35:22<1:52:08, 3.18s/it]
70%|█████████████████████████████████████████████████████▍ | 5022/7135 [4:35:25<1:56:51, 3.32s/it]
70%|█████████████████████████████████████████████████████▌ | 5023/7135 [4:35:29<1:59:29, 3.39s/it]
70%|█████████████████████████████████████████████████████▌ | 5024/7135 [4:35:32<1:56:14, 3.30s/it]
70%|█████████████████████████████████████████████████████▌ | 5025/7135 [4:35:36<1:57:33, 3.34s/it]
70%|█████████████████████████████████████████████████████▌ | 5026/7135 [4:35:38<1:52:02, 3.19s/it]
70%|█████████████████████████████████████████████████████▌ | 5027/7135 [4:35:42<1:56:58, 3.33s/it]
70%|█████████████████████████████████████████████████████▌ | 5028/7135 [4:35:46<2:01:15, 3.45s/it]
70%|█████████████████████████████████████████████████████▌ | 5029/7135 [4:35:49<1:57:07, 3.34s/it]
70%|█████████████████████████████████████████████████████▌ | 5030/7135 [4:35:53<2:03:31, 3.52s/it]
{'loss': 0.8527, 'grad_norm': 4.53125, 'learning_rate': 1.0264754437797264e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 430.44, 'epoch': 7.04}
70%|█████████████████████████████████████████████████████▌ | 5030/7135 [4:35:53<2:03:31, 3.52s/it]
71%|█████████████████████████████████████████████████████▌ | 5031/7135 [4:35:56<1:55:40, 3.30s/it]
71%|█████████████████████████████████████████████████████▌ | 5032/7135 [4:35:59<1:54:21, 3.26s/it]
71%|█████████████████████████████████████████████████████▌ | 5033/7135 [4:36:02<1:56:13, 3.32s/it]
71%|█████████████████████████████████████████████████████▌ | 5034/7135 [4:36:06<1:57:09, 3.35s/it]
71%|█████████████████████████████████████████████████████▋ | 5035/7135 [4:36:09<2:01:26, 3.47s/it]
71%|█████████████████████████████████████████████████████▋ | 5036/7135 [4:36:12<1:51:59, 3.20s/it]
71%|█████████████████████████████████████████████████████▋ | 5037/7135 [4:36:15<1:53:41, 3.25s/it]
71%|█████████████████████████████████████████████████████▋ | 5038/7135 [4:36:19<1:57:32, 3.36s/it]
71%|█████████████████████████████████████████████████████▋ | 5039/7135 [4:36:22<1:51:31, 3.19s/it]
71%|█████████████████████████████████████████████████████▋ | 5040/7135 [4:36:25<1:52:50, 3.23s/it]
{'loss': 0.8299, 'grad_norm': 4.53125, 'learning_rate': 1.0174713819660418e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.37, 'epoch': 7.06}
71%|█████████████████████████████████████████████████████▋ | 5040/7135 [4:36:25<1:52:50, 3.23s/it]
71%|█████████████████████████████████████████████████████▋ | 5041/7135 [4:36:28<1:54:42, 3.29s/it]
71%|█████████████████████████████████████████████████████▋ | 5042/7135 [4:36:32<1:52:48, 3.23s/it]
71%|█████████████████████████████████████████████████████▋ | 5043/7135 [4:36:35<1:51:04, 3.19s/it]
71%|█████████████████████████████████████████████████████▋ | 5044/7135 [4:36:38<1:52:21, 3.22s/it]
71%|█████████████████████████████████████████████████████▋ | 5045/7135 [4:36:41<1:50:05, 3.16s/it]
71%|█████████████████████████████████████████████████████▋ | 5046/7135 [4:36:44<1:49:28, 3.14s/it]
71%|█████████████████████████████████████████████████████▊ | 5047/7135 [4:36:47<1:50:41, 3.18s/it]
71%|█████████████████████████████████████████████████████▊ | 5048/7135 [4:36:51<1:53:15, 3.26s/it]
71%|█████████████████████████████████████████████████████▊ | 5049/7135 [4:36:55<1:59:38, 3.44s/it]
71%|█████████████████████████████████████████████████████▊ | 5050/7135 [4:36:58<1:57:11, 3.37s/it]
{'loss': 0.8498, 'grad_norm': 5.0, 'learning_rate': 1.0084968848815736e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.38, 'epoch': 7.07}
71%|█████████████████████████████████████████████████████▊ | 5050/7135 [4:36:58<1:57:11, 3.37s/it]
71%|█████████████████████████████████████████████████████▊ | 5051/7135 [4:37:01<1:52:27, 3.24s/it]
71%|█████████████████████████████████████████████████████▊ | 5052/7135 [4:37:04<1:56:54, 3.37s/it]
71%|█████████████████████████████████████████████████████▊ | 5053/7135 [4:37:08<1:57:04, 3.37s/it]
71%|█████████████████████████████████████████████████████▊ | 5054/7135 [4:37:11<1:51:32, 3.22s/it]
71%|█████████████████████████████████████████████████████▊ | 5055/7135 [4:37:14<1:51:35, 3.22s/it]
71%|█████████████████████████████████████████████████████▊ | 5056/7135 [4:37:17<1:49:42, 3.17s/it]
71%|█████████████████████████████████████████████████████▊ | 5057/7135 [4:37:20<1:48:42, 3.14s/it]
71%|█████████████████████████████████████████████████████▉ | 5058/7135 [4:37:23<1:43:27, 2.99s/it]
71%|█████████████████████████████████████████████████████▉ | 5059/7135 [4:37:26<1:47:38, 3.11s/it]
71%|█████████████████████████████████████████████████████▉ | 5060/7135 [4:37:29<1:47:15, 3.10s/it]
{'loss': 0.9128, 'grad_norm': 5.71875, 'learning_rate': 9.995521314966106e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.3, 'epoch': 7.09}
71%|█████████████████████████████████████████████████████▉ | 5060/7135 [4:37:29<1:47:15, 3.10s/it]
71%|█████████████████████████████████████████████████████▉ | 5061/7135 [4:37:32<1:46:46, 3.09s/it]
71%|█████████████████████████████████████████████████████▉ | 5062/7135 [4:37:35<1:47:08, 3.10s/it]
71%|█████████████████████████████████████████████████████▉ | 5063/7135 [4:37:39<1:47:49, 3.12s/it]
71%|█████████████████████████████████████████████████████▉ | 5064/7135 [4:37:42<1:47:17, 3.11s/it]
71%|█████████████████████████████████████████████████████▉ | 5065/7135 [4:37:45<1:45:39, 3.06s/it]
71%|█████████████████████████████████████████████████████▉ | 5066/7135 [4:37:47<1:43:17, 3.00s/it]
71%|█████████████████████████████████████████████████████▉ | 5067/7135 [4:37:50<1:41:49, 2.95s/it]
71%|█████████████████████████████████████████████████████▉ | 5068/7135 [4:37:53<1:41:49, 2.96s/it]
71%|█████████████████████████████████████████████████████▉ | 5069/7135 [4:37:56<1:44:46, 3.04s/it]
71%|██████████████████████████████████████████████████████ | 5070/7135 [4:38:00<1:47:47, 3.13s/it]
{'loss': 0.673, 'grad_norm': 5.34375, 'learning_rate': 9.90637300188293e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 313.79, 'epoch': 7.1}
71%|██████████████████████████████████████████████████████ | 5070/7135 [4:38:00<1:47:47, 3.13s/it]
71%|██████████████████████████████████████████████████████ | 5071/7135 [4:38:03<1:47:49, 3.13s/it]
71%|██████████████████████████████████████████████████████ | 5072/7135 [4:38:06<1:44:05, 3.03s/it]
71%|██████████████████████████████████████████████████████ | 5073/7135 [4:38:09<1:44:13, 3.03s/it]
71%|██████████████████████████████████████████████████████ | 5074/7135 [4:38:11<1:41:22, 2.95s/it]
71%|██████████████████████████████████████████████████████ | 5075/7135 [4:38:15<1:44:18, 3.04s/it]
71%|██████████████████████████████████████████████████████ | 5076/7135 [4:38:18<1:41:53, 2.97s/it]
71%|██████████████████████████████████████████████████████ | 5077/7135 [4:38:21<1:43:35, 3.02s/it]
71%|██████████████████████████████████████████████████████ | 5078/7135 [4:38:24<1:47:30, 3.14s/it]
71%|██████████████████████████████████████████████████████ | 5079/7135 [4:38:28<1:50:20, 3.22s/it]
71%|██████████████████████████████████████████████████████ | 5080/7135 [4:38:31<1:50:19, 3.22s/it]
{'loss': 0.7118, 'grad_norm': 5.40625, 'learning_rate': 9.817525687370482e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 342.55, 'epoch': 7.11}
71%|██████████████████████████████████████████████████████ | 5080/7135 [4:38:31<1:50:19, 3.22s/it]
71%|██████████████████████████████████████████████████████ | 5081/7135 [4:38:34<1:52:56, 3.30s/it]
71%|██████████████████████████████████████████████████████▏ | 5082/7135 [4:38:38<1:53:51, 3.33s/it]
71%|██████████████████████████████████████████████████████▏ | 5083/7135 [4:38:41<1:56:02, 3.39s/it]
71%|██████████████████████████████████████████████████████▏ | 5084/7135 [4:38:44<1:54:21, 3.35s/it]
71%|██████████████████████████████████████████████████████▏ | 5085/7135 [4:38:47<1:51:45, 3.27s/it]
71%|██████████████████████████████████████████████████████▏ | 5086/7135 [4:38:51<1:52:17, 3.29s/it]
71%|██████████████████████████████████████████████████████▏ | 5087/7135 [4:38:54<1:50:48, 3.25s/it]
71%|██████████████████████████████████████████████████████▏ | 5088/7135 [4:38:57<1:49:02, 3.20s/it]
71%|██████████████████████████████████████████████████████▏ | 5089/7135 [4:39:00<1:48:43, 3.19s/it]
71%|██████████████████████████████████████████████████████▏ | 5090/7135 [4:39:04<1:51:02, 3.26s/it]
{'loss': 0.7224, 'grad_norm': 5.15625, 'learning_rate': 9.728981143230507e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 343.41, 'epoch': 7.13}
71%|██████████████████████████████████████████████████████▏ | 5090/7135 [4:39:04<1:51:02, 3.26s/it]
71%|██████████████████████████████████████████████████████▏ | 5091/7135 [4:39:07<1:50:24, 3.24s/it]
71%|██████████████████████████████████████████████████████▏ | 5092/7135 [4:39:10<1:50:57, 3.26s/it]
71%|██████████████████████████████████████████████████████▏ | 5093/7135 [4:39:13<1:48:54, 3.20s/it]
71%|██████████████████████████████████████████████████████▎ | 5094/7135 [4:39:17<1:55:41, 3.40s/it]
71%|██████████████████████████████████████████████████████▎ | 5095/7135 [4:39:20<1:50:30, 3.25s/it]
71%|██████████████████████████████████████████████████████▎ | 5096/7135 [4:39:23<1:49:21, 3.22s/it]
71%|██████████████████████████████████████████████████████▎ | 5097/7135 [4:39:26<1:44:33, 3.08s/it]
71%|██████████████████████████████████████████████████████▎ | 5098/7135 [4:39:29<1:41:00, 2.98s/it]
71%|██████████████████████████████████████████████████████▎ | 5099/7135 [4:39:32<1:44:43, 3.09s/it]
71%|██████████████████████████████████████████████████████▎ | 5100/7135 [4:39:35<1:44:37, 3.08s/it]
{'loss': 0.7013, 'grad_norm': 5.9375, 'learning_rate': 9.640741135226886e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 347.65, 'epoch': 7.14}
71%|██████████████████████████████████████████████████████▎ | 5100/7135 [4:39:35<1:44:37, 3.08s/it]
71%|██████████████████████████████████████████████████████▎ | 5101/7135 [4:39:38<1:48:04, 3.19s/it]
72%|██████████████████████████████████████████████████████▎ | 5102/7135 [4:39:42<1:48:30, 3.20s/it]
72%|██████████████████████████████████████████████████████▎ | 5103/7135 [4:39:45<1:45:18, 3.11s/it]
72%|██████████████████████████████████████████████████████▎ | 5104/7135 [4:39:47<1:42:09, 3.02s/it]
72%|██████████████████████████████████████████████████████▍ | 5105/7135 [4:39:51<1:51:28, 3.29s/it]
72%|██████████████████████████████████████████████████████▍ | 5106/7135 [4:39:54<1:48:54, 3.22s/it]
72%|██████████████████████████████████████████████████████▍ | 5107/7135 [4:39:58<1:55:04, 3.40s/it]
72%|██████████████████████████████████████████████████████▍ | 5108/7135 [4:40:02<2:00:38, 3.57s/it]
72%|██████████████████████████████████████████████████████▍ | 5109/7135 [4:40:05<1:53:48, 3.37s/it]
72%|██████████████████████████████████████████████████████▍ | 5110/7135 [4:40:08<1:48:37, 3.22s/it]
{'loss': 0.6473, 'grad_norm': 4.5625, 'learning_rate': 9.552807423050397e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 348.99, 'epoch': 7.16}
72%|██████████████████████████████████████████████████████▍ | 5110/7135 [4:40:08<1:48:37, 3.22s/it]
72%|██████████████████████████████████████████████████████▍ | 5111/7135 [4:40:12<1:58:40, 3.52s/it]
72%|██████████████████████████████████████████████████████▍ | 5112/7135 [4:40:15<1:52:52, 3.35s/it]
72%|██████████████████████████████████████████████████████▍ | 5113/7135 [4:40:19<1:54:18, 3.39s/it]
72%|██████████████████████████████████████████████████████▍ | 5114/7135 [4:40:21<1:46:34, 3.16s/it]
72%|██████████████████████████████████████████████████████▍ | 5115/7135 [4:40:24<1:45:31, 3.13s/it]
72%|██████████████████████████████████████████████████████▍ | 5116/7135 [4:40:27<1:43:21, 3.07s/it]
72%|██████████████████████████████████████████████████████▌ | 5117/7135 [4:40:30<1:42:27, 3.05s/it]
72%|██████████████████████████████████████████████████████▌ | 5118/7135 [4:40:33<1:44:01, 3.09s/it]
72%|██████████████████████████████████████████████████████▌ | 5119/7135 [4:40:37<1:44:04, 3.10s/it]
72%|██████████████████████████████████████████████████████▌ | 5120/7135 [4:40:40<1:47:43, 3.21s/it]
{'loss': 0.7061, 'grad_norm': 4.6875, 'learning_rate': 9.46518176028364e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 354.66, 'epoch': 7.17}
72%|██████████████████████████████████████████████████████▌ | 5120/7135 [4:40:40<1:47:43, 3.21s/it]
72%|██████████████████████████████████████████████████████▌ | 5121/7135 [4:40:43<1:43:00, 3.07s/it]
72%|██████████████████████████████████████████████████████▌ | 5122/7135 [4:40:46<1:41:25, 3.02s/it]
72%|██████████████████████████████████████████████████████▌ | 5123/7135 [4:40:48<1:37:29, 2.91s/it]
72%|██████████████████████████████████████████████████████▌ | 5124/7135 [4:40:51<1:40:30, 3.00s/it]
72%|██████████████████████████████████████████████████████▌ | 5125/7135 [4:40:54<1:40:12, 2.99s/it]
72%|██████████████████████████████████████████████████████▌ | 5126/7135 [4:40:58<1:45:34, 3.15s/it]
72%|██████████████████████████████████████████████████████▌ | 5127/7135 [4:41:01<1:43:58, 3.11s/it]
72%|██████████████████████████████████████████████████████▌ | 5128/7135 [4:41:04<1:43:09, 3.08s/it]
72%|██████████████████████████████████████████████████████▋ | 5129/7135 [4:41:07<1:41:19, 3.03s/it]
72%|██████████████████████████████████████████████████████▋ | 5130/7135 [4:41:10<1:44:44, 3.13s/it]
{'loss': 0.7642, 'grad_norm': 3.9375, 'learning_rate': 9.377865894366062e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.72, 'epoch': 7.19}
72%|██████████████████████████████████████████████████████▋ | 5130/7135 [4:41:10<1:44:44, 3.13s/it]
72%|██████████████████████████████████████████████████████▋ | 5131/7135 [4:41:13<1:38:13, 2.94s/it]
72%|██████████████████████████████████████████████████████▋ | 5132/7135 [4:41:16<1:45:37, 3.16s/it]
72%|██████████████████████████████████████████████████████▋ | 5133/7135 [4:41:20<1:46:20, 3.19s/it]
72%|██████████████████████████████████████████████████████▋ | 5134/7135 [4:41:23<1:44:20, 3.13s/it]
72%|██████████████████████████████████████████████████████▋ | 5135/7135 [4:41:26<1:46:38, 3.20s/it]
72%|██████████████████████████████████████████████████████▋ | 5136/7135 [4:41:29<1:47:22, 3.22s/it]
72%|██████████████████████████████████████████████████████▋ | 5137/7135 [4:41:32<1:41:32, 3.05s/it]
72%|██████████████████████████████████████████████████████▋ | 5138/7135 [4:41:35<1:43:03, 3.10s/it]
72%|██████████████████████████████████████████████████████▋ | 5139/7135 [4:41:38<1:40:43, 3.03s/it]
72%|██████████████████████████████████████████████████████▋ | 5140/7135 [4:41:41<1:41:51, 3.06s/it]
{'loss': 0.7476, 'grad_norm': 4.71875, 'learning_rate': 9.290861566559115e-07, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.07, 'epoch': 7.2}
72%|██████████████████████████████████████████████████████▋ | 5140/7135 [4:41:41<1:41:51, 3.06s/it]
72%|██████████████████████████████████████████████████████▊ | 5141/7135 [4:41:44<1:42:18, 3.08s/it]
72%|██████████████████████████████████████████████████████▊ | 5142/7135 [4:41:47<1:43:02, 3.10s/it]
72%|██████████████████████████████████████████████████████▊ | 5143/7135 [4:41:51<1:45:58, 3.19s/it]
72%|██████████████████████████████████████████████████████▊ | 5144/7135 [4:41:54<1:45:10, 3.17s/it]
72%|██████████████████████████████████████████████████████▊ | 5145/7135 [4:41:57<1:46:27, 3.21s/it]
72%|██████████████████████████████████████████████████████▊ | 5146/7135 [4:42:01<1:50:03, 3.32s/it]
72%|██████████████████████████████████████████████████████▊ | 5147/7135 [4:42:04<1:46:57, 3.23s/it]
72%|██████████████████████████████████████████████████████▊ | 5148/7135 [4:42:07<1:48:19, 3.27s/it]
72%|██████████████████████████████████████████████████████▊ | 5149/7135 [4:42:11<1:54:58, 3.47s/it]
72%|██████████████████████████████████████████████████████▊ | 5150/7135 [4:42:14<1:52:50, 3.41s/it]
{'loss': 0.7598, 'grad_norm': 4.78125, 'learning_rate': 9.20417051191152e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.33, 'epoch': 7.21}
72%|██████████████████████████████████████████████████████▊ | 5150/7135 [4:42:15<1:52:50, 3.41s/it]
72%|██████████████████████████████████████████████████████▊ | 5151/7135 [4:42:18<1:49:50, 3.32s/it]
72%|██████████████████████████████████████████████████████▉ | 5152/7135 [4:42:21<1:51:29, 3.37s/it]
72%|██████████████████████████████████████████████████████▉ | 5153/7135 [4:42:24<1:48:22, 3.28s/it]
72%|██████████████████████████████████████████████████████▉ | 5154/7135 [4:42:27<1:43:36, 3.14s/it]
72%|██████████████████████████████████████████████████████▉ | 5155/7135 [4:42:30<1:43:24, 3.13s/it]
72%|██████████████████████████████████████████████████████▉ | 5156/7135 [4:42:33<1:44:20, 3.16s/it]
72%|██████████████████████████████████████████████████████▉ | 5157/7135 [4:42:36<1:42:34, 3.11s/it]
72%|██████████████████████████████████████████████████████▉ | 5158/7135 [4:42:40<1:44:24, 3.17s/it]
72%|██████████████████████████████████████████████████████▉ | 5159/7135 [4:42:42<1:40:38, 3.06s/it]
72%|██████████████████████████████████████████████████████▉ | 5160/7135 [4:42:45<1:37:46, 2.97s/it]
{'loss': 0.7848, 'grad_norm': 5.125, 'learning_rate': 9.117794459224697e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.5, 'epoch': 7.23}
72%|██████████████████████████████████████████████████████▉ | 5160/7135 [4:42:45<1:37:46, 2.97s/it]
72%|██████████████████████████████████████████████████████▉ | 5161/7135 [4:42:48<1:35:56, 2.92s/it]
72%|██████████████████████████████████████████████████████▉ | 5162/7135 [4:42:51<1:38:56, 3.01s/it]
72%|██████████████████████████████████████████████████████▉ | 5163/7135 [4:42:54<1:41:25, 3.09s/it]
72%|███████████████████████████████████████████████████████ | 5164/7135 [4:42:57<1:38:35, 3.00s/it]
72%|███████████████████████████████████████████████████████ | 5165/7135 [4:43:00<1:37:51, 2.98s/it]
72%|███████████████████████████████████████████████████████ | 5166/7135 [4:43:04<1:42:20, 3.12s/it]
72%|███████████████████████████████████████████████████████ | 5167/7135 [4:43:07<1:44:14, 3.18s/it]
72%|███████████████████████████████████████████████████████ | 5168/7135 [4:43:10<1:42:05, 3.11s/it]
72%|███████████████████████████████████████████████████████ | 5169/7135 [4:43:15<1:57:03, 3.57s/it]
72%|███████████████████████████████████████████████████████ | 5170/7135 [4:43:18<1:53:21, 3.46s/it]
{'loss': 0.8747, 'grad_norm': 5.75, 'learning_rate': 9.031735131018238e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 379.55, 'epoch': 7.24}
72%|███████████████████████████████████████████████████████ | 5170/7135 [4:43:18<1:53:21, 3.46s/it]
72%|███████████████████████████████████████████████████████ | 5171/7135 [4:43:21<1:49:16, 3.34s/it]
72%|███████████████████████████████████████████████████████ | 5172/7135 [4:43:24<1:50:38, 3.38s/it]
73%|███████████████████████████████████████████████████████ | 5173/7135 [4:43:28<1:55:20, 3.53s/it]
73%|███████████████████████████████████████████████████████ | 5174/7135 [4:43:31<1:48:35, 3.32s/it]
73%|███████████████████████████████████████████████████████ | 5175/7135 [4:43:34<1:50:00, 3.37s/it]
73%|███████████████████████████████████████████████████████▏ | 5176/7135 [4:43:38<1:49:29, 3.35s/it]
73%|███████████████████████████████████████████████████████▏ | 5177/7135 [4:43:41<1:47:40, 3.30s/it]
73%|███████████████████████████████████████████████████████▏ | 5178/7135 [4:43:44<1:43:38, 3.18s/it]
73%|███████████████████████████████████████████████████████▏ | 5179/7135 [4:43:47<1:41:33, 3.12s/it]
73%|███████████████████████████████████████████████████████▏ | 5180/7135 [4:43:50<1:41:16, 3.11s/it]
{'loss': 0.723, 'grad_norm': 3.421875, 'learning_rate': 8.945994243495593e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 477.33, 'epoch': 7.26}
73%|███████████████████████████████████████████████████████▏ | 5180/7135 [4:43:50<1:41:16, 3.11s/it]
73%|███████████████████████████████████████████████████████▏ | 5181/7135 [4:43:53<1:41:38, 3.12s/it]
73%|███████████████████████████████████████████████████████▏ | 5182/7135 [4:43:56<1:37:24, 2.99s/it]
73%|███████████████████████████████████████████████████████▏ | 5183/7135 [4:43:59<1:39:03, 3.04s/it]
73%|███████████████████████████████████████████████████████▏ | 5184/7135 [4:44:02<1:35:21, 2.93s/it]
73%|███████████████████████████████████████████████████████▏ | 5185/7135 [4:44:05<1:36:43, 2.98s/it]
73%|███████████████████████████████████████████████████████▏ | 5186/7135 [4:44:08<1:42:49, 3.17s/it]
73%|███████████████████████████████████████████████████████▎ | 5187/7135 [4:44:12<1:48:14, 3.33s/it]
73%|███████████████████████████████████████████████████████▎ | 5188/7135 [4:44:15<1:47:44, 3.32s/it]
73%|███████████████████████████████████████████████████████▎ | 5189/7135 [4:44:18<1:45:41, 3.26s/it]
73%|███████████████████████████████████████████████████████▎ | 5190/7135 [4:44:22<1:46:53, 3.30s/it]
{'loss': 0.6638, 'grad_norm': 6.0625, 'learning_rate': 8.86057350650986e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.78, 'epoch': 7.27}
73%|███████████████████████████████████████████████████████▎ | 5190/7135 [4:44:22<1:46:53, 3.30s/it]
73%|███████████████████████████████████████████████████████▎ | 5191/7135 [4:44:25<1:47:56, 3.33s/it]
73%|███████████████████████████████████████████████████████▎ | 5192/7135 [4:44:28<1:47:10, 3.31s/it]
73%|███████████████████████████████████████████████████████▎ | 5193/7135 [4:44:32<1:51:04, 3.43s/it]
73%|███████████████████████████████████████████████████████▎ | 5194/7135 [4:44:35<1:48:43, 3.36s/it]
73%|███████████████████████████████████████████████████████▎ | 5195/7135 [4:44:39<1:49:46, 3.40s/it]
73%|███████████████████████████████████████████████████████▎ | 5196/7135 [4:44:42<1:47:53, 3.34s/it]
73%|███████████████████████████████████████████████████████▎ | 5197/7135 [4:44:46<1:55:12, 3.57s/it]
73%|███████████████████████████████████████████████████████▎ | 5198/7135 [4:44:49<1:50:07, 3.41s/it]
73%|███████████████████████████████████████████████████████▍ | 5199/7135 [4:44:53<1:52:48, 3.50s/it]
73%|███████████████████████████████████████████████████████▍ | 5200/7135 [4:44:57<1:55:51, 3.59s/it]
{'loss': 0.8942, 'grad_norm': 2.703125, 'learning_rate': 8.775474623529628e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 488.5, 'epoch': 7.28}
73%|███████████████████████████████████████████████████████▍ | 5200/7135 [4:44:57<1:55:51, 3.59s/it]
73%|███████████████████████████████████████████████████████▍ | 5201/7135 [4:44:59<1:47:35, 3.34s/it]
73%|███████████████████████████████████████████████████████▍ | 5202/7135 [4:45:04<1:55:03, 3.57s/it]
73%|███████████████████████████████████████████████████████▍ | 5203/7135 [4:45:07<1:50:31, 3.43s/it]
73%|███████████████████████████████████████████████████████▍ | 5204/7135 [4:45:10<1:51:48, 3.47s/it]
73%|███████████████████████████████████████████████████████▍ | 5205/7135 [4:45:13<1:47:26, 3.34s/it]
73%|███████████████████████████████████████████████████████▍ | 5206/7135 [4:45:16<1:45:20, 3.28s/it]
73%|███████████████████████████████████████████████████████▍ | 5207/7135 [4:45:20<1:46:42, 3.32s/it]
73%|███████████████████████████████████████████████████████▍ | 5208/7135 [4:45:22<1:39:27, 3.10s/it]
73%|███████████████████████████████████████████████████████▍ | 5209/7135 [4:45:26<1:39:27, 3.10s/it]
73%|███████████████████████████████████████████████████████▍ | 5210/7135 [4:45:29<1:41:37, 3.17s/it]
{'loss': 0.7066, 'grad_norm': 4.1875, 'learning_rate': 8.690699291605059e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.11, 'epoch': 7.3}
73%|███████████████████████████████████████████████████████▍ | 5210/7135 [4:45:29<1:41:37, 3.17s/it]
73%|███████████████████████████████████████████████████████▌ | 5211/7135 [4:45:32<1:40:43, 3.14s/it]
73%|███████████████████████████████████████████████████████▌ | 5212/7135 [4:45:35<1:43:37, 3.23s/it]
73%|███████████████████████████████████████████████████████▌ | 5213/7135 [4:45:38<1:38:15, 3.07s/it]
73%|███████████████████████████████████████████████████████▌ | 5214/7135 [4:45:41<1:38:17, 3.07s/it]
73%|███████████████████████████████████████████████████████▌ | 5215/7135 [4:45:44<1:36:30, 3.02s/it]
73%|███████████████████████████████████████████████████████▌ | 5216/7135 [4:45:47<1:36:16, 3.01s/it]
73%|███████████████████████████████████████████████████████▌ | 5217/7135 [4:45:50<1:37:42, 3.06s/it]
73%|███████████████████████████████████████████████████████▌ | 5218/7135 [4:45:54<1:43:09, 3.23s/it]
73%|███████████████████████████████████████████████████████▌ | 5219/7135 [4:45:58<1:52:24, 3.52s/it]
73%|███████████████████████████████████████████████████████▌ | 5220/7135 [4:46:01<1:48:30, 3.40s/it]
{'loss': 0.9503, 'grad_norm': 4.75, 'learning_rate': 8.606249201334041e-07, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 465.99, 'epoch': 7.31}
73%|███████████████████████████████████████████████████████▌ | 5220/7135 [4:46:01<1:48:30, 3.40s/it]
73%|███████████████████████████████████████████████████████▌ | 5221/7135 [4:46:04<1:42:58, 3.23s/it]
73%|███████████████████████████████████████████████████████▌ | 5222/7135 [4:46:07<1:42:09, 3.20s/it]
73%|███████████████████████████████████████████████████████▋ | 5223/7135 [4:46:10<1:39:49, 3.13s/it]
73%|███████████████████████████████████████████████████████▋ | 5224/7135 [4:46:13<1:42:09, 3.21s/it]
73%|███████████████████████████████████████████████████████▋ | 5225/7135 [4:46:17<1:42:18, 3.21s/it]
73%|███████████████████████████████████████████████████████▋ | 5226/7135 [4:46:20<1:47:34, 3.38s/it]
73%|███████████████████████████████████████████████████████▋ | 5227/7135 [4:46:24<1:47:32, 3.38s/it]
73%|███████████████████████████████████████████████████████▋ | 5228/7135 [4:46:27<1:42:55, 3.24s/it]
73%|███████████████████████████████████████████████████████▋ | 5229/7135 [4:46:30<1:44:23, 3.29s/it]
73%|███████████████████████████████████████████████████████▋ | 5230/7135 [4:46:33<1:44:49, 3.30s/it]
{'loss': 0.814, 'grad_norm': 6.46875, 'learning_rate': 8.522126036828446e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.4, 'epoch': 7.33}
73%|███████████████████████████████████████████████████████▋ | 5230/7135 [4:46:34<1:44:49, 3.30s/it]
73%|███████████████████████████████████████████████████████▋ | 5231/7135 [4:46:37<1:44:18, 3.29s/it]
73%|███████████████████████████████████████████████████████▋ | 5232/7135 [4:46:40<1:42:09, 3.22s/it]
73%|███████████████████████████████████████████████████████▋ | 5233/7135 [4:46:43<1:40:12, 3.16s/it]
73%|███████████████████████████████████████████████████████▊ | 5234/7135 [4:46:46<1:42:49, 3.25s/it]
73%|███████████████████████████████████████████████████████▊ | 5235/7135 [4:46:49<1:39:30, 3.14s/it]
73%|███████████████████████████████████████████████████████▊ | 5236/7135 [4:46:53<1:41:40, 3.21s/it]
73%|███████████████████████████████████████████████████████▊ | 5237/7135 [4:46:57<1:51:36, 3.53s/it]
73%|███████████████████████████████████████████████████████▊ | 5238/7135 [4:47:00<1:51:42, 3.53s/it]
73%|███████████████████████████████████████████████████████▊ | 5239/7135 [4:47:04<1:52:38, 3.56s/it]
73%|███████████████████████████████████████████████████████▊ | 5240/7135 [4:47:07<1:48:16, 3.43s/it]
{'loss': 0.7452, 'grad_norm': 4.625, 'learning_rate': 8.438331475680558e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.97, 'epoch': 7.34}
73%|███████████████████████████████████████████████████████▊ | 5240/7135 [4:47:07<1:48:16, 3.43s/it]
73%|███████████████████████████████████████████████████████▊ | 5241/7135 [4:47:10<1:43:24, 3.28s/it]
73%|███████████████████████████████████████████████████████▊ | 5242/7135 [4:47:13<1:42:28, 3.25s/it]
73%|███████████████████████████████████████████████████████▊ | 5243/7135 [4:47:16<1:39:58, 3.17s/it]
73%|███████████████████████████████████████████████████████▊ | 5244/7135 [4:47:20<1:41:36, 3.22s/it]
74%|███████████████████████████████████████████████████████▊ | 5245/7135 [4:47:22<1:37:13, 3.09s/it]
74%|███████████████████████████████████████████████████████▉ | 5246/7135 [4:47:26<1:38:24, 3.13s/it]
74%|███████████████████████████████████████████████████████▉ | 5247/7135 [4:47:29<1:37:11, 3.09s/it]
74%|███████████████████████████████████████████████████████▉ | 5248/7135 [4:47:32<1:39:38, 3.17s/it]
74%|███████████████████████████████████████████████████████▉ | 5249/7135 [4:47:35<1:43:13, 3.28s/it]
74%|███████████████████████████████████████████████████████▉ | 5250/7135 [4:47:38<1:40:51, 3.21s/it]
{'loss': 0.8529, 'grad_norm': 6.46875, 'learning_rate': 8.354867188929633e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.89, 'epoch': 7.35}
74%|███████████████████████████████████████████████████████▉ | 5250/7135 [4:47:39<1:40:51, 3.21s/it]
74%|███████████████████████████████████████████████████████▉ | 5251/7135 [4:47:42<1:46:57, 3.41s/it]
74%|███████████████████████████████████████████████████████▉ | 5252/7135 [4:47:46<1:44:47, 3.34s/it]
74%|███████████████████████████████████████████████████████▉ | 5253/7135 [4:47:49<1:46:00, 3.38s/it]
74%|███████████████████████████████████████████████████████▉ | 5254/7135 [4:47:52<1:46:32, 3.40s/it]
74%|███████████████████████████████████████████████████████▉ | 5255/7135 [4:47:55<1:42:46, 3.28s/it]
74%|███████████████████████████████████████████████████████▉ | 5256/7135 [4:47:58<1:39:24, 3.17s/it]
74%|███████████████████████████████████████████████████████▉ | 5257/7135 [4:48:01<1:37:37, 3.12s/it]
74%|████████████████████████████████████████████████████████ | 5258/7135 [4:48:04<1:36:05, 3.07s/it]
74%|████████████████████████████████████████████████████████ | 5259/7135 [4:48:07<1:33:51, 3.00s/it]
74%|████████████████████████████████████████████████████████ | 5260/7135 [4:48:11<1:37:36, 3.12s/it]
{'loss': 0.6874, 'grad_norm': 4.9375, 'learning_rate': 8.271734841028553e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.8, 'epoch': 7.37}
74%|████████████████████████████████████████████████████████ | 5260/7135 [4:48:11<1:37:36, 3.12s/it]
74%|████████████████████████████████████████████████████████ | 5261/7135 [4:48:14<1:36:58, 3.10s/it]
74%|████████████████████████████████████████████████████████ | 5262/7135 [4:48:17<1:34:59, 3.04s/it]
74%|████████████████████████████████████████████████████████ | 5263/7135 [4:48:20<1:36:22, 3.09s/it]
74%|████████████████████████████████████████████████████████ | 5264/7135 [4:48:23<1:38:58, 3.17s/it]
74%|████████████████████████████████████████████████████████ | 5265/7135 [4:48:27<1:45:14, 3.38s/it]
74%|████████████████████████████████████████████████████████ | 5266/7135 [4:48:30<1:43:54, 3.34s/it]
74%|████████████████████████████████████████████████████████ | 5267/7135 [4:48:34<1:50:27, 3.55s/it]
74%|████████████████████████████████████████████████████████ | 5268/7135 [4:48:37<1:43:52, 3.34s/it]
74%|████████████████████████████████████████████████████████ | 5269/7135 [4:48:40<1:38:56, 3.18s/it]
74%|████████████████████████████████████████████████████████▏ | 5270/7135 [4:48:43<1:34:56, 3.05s/it]
{'loss': 0.7083, 'grad_norm': 5.8125, 'learning_rate': 8.18893608981064e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.7, 'epoch': 7.38}
74%|████████████████████████████████████████████████████████▏ | 5270/7135 [4:48:43<1:34:56, 3.05s/it]
74%|████████████████████████████████████████████████████████▏ | 5271/7135 [4:48:46<1:37:36, 3.14s/it]
74%|████████████████████████████████████████████████████████▏ | 5272/7135 [4:48:50<1:42:23, 3.30s/it]
74%|████████████████████████████████████████████████████████▏ | 5273/7135 [4:48:53<1:39:23, 3.20s/it]
74%|████████████████████████████████████████████████████████▏ | 5274/7135 [4:48:56<1:42:57, 3.32s/it]
74%|████████████████████████████████████████████████████████▏ | 5275/7135 [4:48:59<1:41:01, 3.26s/it]
74%|████████████████████████████████████████████████████████▏ | 5276/7135 [4:49:03<1:43:42, 3.35s/it]
74%|████████████████████████████████████████████████████████▏ | 5277/7135 [4:49:06<1:39:58, 3.23s/it]
74%|████████████████████████████████████████████████████████▏ | 5278/7135 [4:49:09<1:37:35, 3.15s/it]
74%|████████████████████████████████████████████████████████▏ | 5279/7135 [4:49:12<1:39:55, 3.23s/it]
74%|████████████████████████████████████████████████████████▏ | 5280/7135 [4:49:15<1:34:52, 3.07s/it]
{'loss': 0.7267, 'grad_norm': 5.46875, 'learning_rate': 8.106472586456623e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.01, 'epoch': 7.4}
74%|████████████████████████████████████████████████████████▏ | 5280/7135 [4:49:15<1:34:52, 3.07s/it]
74%|████████████████████████████████████████████████████████▎ | 5281/7135 [4:49:18<1:36:16, 3.12s/it]
74%|████████████████████████████████████████████████████████▎ | 5282/7135 [4:49:21<1:33:40, 3.03s/it]
74%|████████████████████████████████████████████████████████▎ | 5283/7135 [4:49:25<1:41:48, 3.30s/it]
74%|████████████████████████████████████████████████████████▎ | 5284/7135 [4:49:28<1:40:12, 3.25s/it]
74%|████████████████████████████████████████████████████████▎ | 5285/7135 [4:49:31<1:40:50, 3.27s/it]
74%|████████████████████████████████████████████████████████▎ | 5286/7135 [4:49:35<1:43:58, 3.37s/it]
74%|████████████████████████████████████████████████████████▎ | 5287/7135 [4:49:39<1:45:22, 3.42s/it]
74%|████████████████████████████████████████████████████████▎ | 5288/7135 [4:49:42<1:47:00, 3.48s/it]
74%|████████████████████████████████████████████████████████▎ | 5289/7135 [4:49:45<1:40:43, 3.27s/it]
74%|████████████████████████████████████████████████████████▎ | 5290/7135 [4:49:49<1:43:44, 3.37s/it]
{'loss': 0.7073, 'grad_norm': 5.75, 'learning_rate': 8.024345975461662e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 311.31, 'epoch': 7.41}
74%|████████████████████████████████████████████████████████▎ | 5290/7135 [4:49:49<1:43:44, 3.37s/it]
74%|████████████████████████████████████████████████████████▎ | 5291/7135 [4:49:52<1:40:31, 3.27s/it]
74%|████████████████████████████████████████████████████████▎ | 5292/7135 [4:49:55<1:40:51, 3.28s/it]
74%|████████████████████████████████████████████████████████▍ | 5293/7135 [4:49:59<1:44:55, 3.42s/it]
74%|████████████████████████████████████████████████████████▍ | 5294/7135 [4:50:02<1:40:54, 3.29s/it]
74%|████████████████████████████████████████████████████████▍ | 5295/7135 [4:50:05<1:41:51, 3.32s/it]
74%|████████████████████████████████████████████████████████▍ | 5296/7135 [4:50:09<1:46:10, 3.46s/it]
74%|████████████████████████████████████████████████████████▍ | 5297/7135 [4:50:11<1:38:21, 3.21s/it]
74%|████████████████████████████████████████████████████████▍ | 5298/7135 [4:50:14<1:35:29, 3.12s/it]
74%|████████████████████████████████████████████████████████▍ | 5299/7135 [4:50:17<1:32:45, 3.03s/it]
74%|████████████████████████████████████████████████████████▍ | 5300/7135 [4:50:20<1:29:59, 2.94s/it]
{'loss': 0.6908, 'grad_norm': 4.3125, 'learning_rate': 7.94255789460257e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 483.7, 'epoch': 7.42}
74%|████████████████████████████████████████████████████████▍ | 5300/7135 [4:50:20<1:29:59, 2.94s/it]
74%|████████████████████████████████████████████████████████▍ | 5301/7135 [4:50:23<1:28:44, 2.90s/it]
74%|████████████████████████████████████████████████████████▍ | 5302/7135 [4:50:26<1:31:10, 2.98s/it]
74%|████████████████████████████████████████████████████████▍ | 5303/7135 [4:50:29<1:36:28, 3.16s/it]
74%|████████████████████████████████████████████████████████▍ | 5304/7135 [4:50:32<1:35:30, 3.13s/it]
74%|████████████████████████████████████████████████████████▌ | 5305/7135 [4:50:36<1:34:48, 3.11s/it]
74%|████████████████████████████████████████████████████████▌ | 5306/7135 [4:50:39<1:35:03, 3.12s/it]
74%|████████████████████████████████████████████████████████▌ | 5307/7135 [4:50:42<1:37:52, 3.21s/it]
74%|████████████████████████████████████████████████████████▌ | 5308/7135 [4:50:45<1:36:31, 3.17s/it]
74%|████████████████████████████████████████████████████████▌ | 5309/7135 [4:50:49<1:39:15, 3.26s/it]
74%|████████████████████████████████████████████████████████▌ | 5310/7135 [4:50:53<1:44:50, 3.45s/it]
{'loss': 0.7633, 'grad_norm': 5.40625, 'learning_rate': 7.861109974905198e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 290.56, 'epoch': 7.44}
74%|████████████████████████████████████████████████████████▌ | 5310/7135 [4:50:53<1:44:50, 3.45s/it]
74%|████████████████████████████████████████████████████████▌ | 5311/7135 [4:50:56<1:45:40, 3.48s/it]
74%|████████████████████████████████████████████████████████▌ | 5312/7135 [4:50:59<1:44:46, 3.45s/it]
74%|████████████████████████████████████████████████████████▌ | 5313/7135 [4:51:03<1:44:13, 3.43s/it]
74%|████████████████████████████████████████████████████████▌ | 5314/7135 [4:51:06<1:42:34, 3.38s/it]
74%|████████████████████████████████████████████████████████▌ | 5315/7135 [4:51:10<1:44:48, 3.46s/it]
75%|████████████████████████████████████████████████████████▌ | 5316/7135 [4:51:12<1:37:30, 3.22s/it]
75%|████████████████████████████████████████████████████████▋ | 5317/7135 [4:51:15<1:35:05, 3.14s/it]
75%|████████████████████████████████████████████████████████▋ | 5318/7135 [4:51:18<1:33:57, 3.10s/it]
75%|████████████████████████████████████████████████████████▋ | 5319/7135 [4:51:21<1:29:42, 2.96s/it]
75%|████████████████████████████████████████████████████████▋ | 5320/7135 [4:51:24<1:29:42, 2.97s/it]
{'loss': 0.6055, 'grad_norm': 4.78125, 'learning_rate': 7.780003840611822e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.2, 'epoch': 7.45}
75%|████████████████████████████████████████████████████████▋ | 5320/7135 [4:51:24<1:29:42, 2.97s/it]
75%|████████████████████████████████████████████████████████▋ | 5321/7135 [4:51:28<1:38:33, 3.26s/it]
75%|████████████████████████████████████████████████████████▋ | 5322/7135 [4:51:31<1:37:15, 3.22s/it]
75%|████████████████████████████████████████████████████████▋ | 5323/7135 [4:51:34<1:35:27, 3.16s/it]
75%|████████████████████████████████████████████████████████▋ | 5324/7135 [4:51:37<1:33:40, 3.10s/it]
75%|████████████████████████████████████████████████████████▋ | 5325/7135 [4:51:40<1:29:33, 2.97s/it]
75%|████████████████████████████████████████████████████████▋ | 5326/7135 [4:51:43<1:31:30, 3.04s/it]
75%|████████████████████████████████████████████████████████▋ | 5327/7135 [4:51:46<1:29:01, 2.95s/it]
75%|████████████████████████████████████████████████████████▊ | 5328/7135 [4:51:49<1:34:42, 3.14s/it]
75%|████████████████████████████████████████████████████████▊ | 5329/7135 [4:51:53<1:38:10, 3.26s/it]
75%|████████████████████████████████████████████████████████▊ | 5330/7135 [4:51:56<1:33:19, 3.10s/it]
{'loss': 0.7846, 'grad_norm': 4.0, 'learning_rate': 7.699241109148845e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 503.9, 'epoch': 7.47}
75%|████████████████████████████████████████████████████████▊ | 5330/7135 [4:51:56<1:33:19, 3.10s/it]
75%|████████████████████████████████████████████████████████▊ | 5331/7135 [4:51:59<1:40:21, 3.34s/it]
75%|████████████████████████████████████████████████████████▊ | 5332/7135 [4:52:02<1:37:18, 3.24s/it]
75%|████████████████████████████████████████████████████████▊ | 5333/7135 [4:52:06<1:37:24, 3.24s/it]
75%|████████████████████████████████████████████████████████▊ | 5334/7135 [4:52:09<1:33:47, 3.12s/it]
75%|████████████████████████████████████████████████████████▊ | 5335/7135 [4:52:12<1:32:20, 3.08s/it]
75%|████████████████████████████████████████████████████████▊ | 5336/7135 [4:52:14<1:30:37, 3.02s/it]
75%|████████████████████████████████████████████████████████▊ | 5337/7135 [4:52:17<1:27:26, 2.92s/it]
75%|████████████████████████████████████████████████████████▊ | 5338/7135 [4:52:21<1:33:30, 3.12s/it]
75%|████████████████████████████████████████████████████████▊ | 5339/7135 [4:52:23<1:30:17, 3.02s/it]
75%|████████████████████████████████████████████████████████▉ | 5340/7135 [4:52:27<1:34:55, 3.17s/it]
{'loss': 0.6155, 'grad_norm': 6.96875, 'learning_rate': 7.618823391094459e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 392.84, 'epoch': 7.48}
75%|████████████████████████████████████████████████████████▉ | 5340/7135 [4:52:27<1:34:55, 3.17s/it]
75%|████████████████████████████████████████████████████████▉ | 5341/7135 [4:52:30<1:35:02, 3.18s/it]
75%|████████████████████████████████████████████████████████▉ | 5342/7135 [4:52:34<1:38:32, 3.30s/it]
75%|████████████████████████████████████████████████████████▉ | 5343/7135 [4:52:37<1:35:48, 3.21s/it]
75%|████████████████████████████████████████████████████████▉ | 5344/7135 [4:52:40<1:39:10, 3.32s/it]
75%|████████████████████████████████████████████████████████▉ | 5345/7135 [4:52:44<1:39:14, 3.33s/it]
75%|████████████████████████████████████████████████████████▉ | 5346/7135 [4:52:47<1:35:47, 3.21s/it]
75%|████████████████████████████████████████████████████████▉ | 5347/7135 [4:52:50<1:34:03, 3.16s/it]
75%|████████████████████████████████████████████████████████▉ | 5348/7135 [4:52:53<1:32:54, 3.12s/it]
75%|████████████████████████████████████████████████████████▉ | 5349/7135 [4:52:56<1:32:13, 3.10s/it]
75%|████████████████████████████████████████████████████████▉ | 5350/7135 [4:52:59<1:35:04, 3.20s/it]
{'loss': 0.7106, 'grad_norm': 4.59375, 'learning_rate': 7.538752290146595e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.58, 'epoch': 7.49}
75%|████████████████████████████████████████████████████████▉ | 5350/7135 [4:52:59<1:35:04, 3.20s/it]
75%|████████████████████████████████████████████████████████▉ | 5351/7135 [4:53:03<1:37:21, 3.27s/it]
75%|█████████████████████████████████████████████████████████ | 5352/7135 [4:53:06<1:36:13, 3.24s/it]
75%|█████████████████████████████████████████████████████████ | 5353/7135 [4:53:09<1:36:52, 3.26s/it]
75%|█████████████████████████████████████████████████████████ | 5354/7135 [4:53:12<1:36:22, 3.25s/it]
75%|█████████████████████████████████████████████████████████ | 5355/7135 [4:53:15<1:31:20, 3.08s/it]
75%|█████████████████████████████████████████████████████████ | 5356/7135 [4:53:18<1:28:53, 3.00s/it]
75%|█████████████████████████████████████████████████████████ | 5357/7135 [4:53:21<1:27:56, 2.97s/it]
75%|█████████████████████████████████████████████████████████ | 5358/7135 [4:53:24<1:29:02, 3.01s/it]
75%|█████████████████████████████████████████████████████████ | 5359/7135 [4:53:27<1:31:43, 3.10s/it]
75%|█████████████████████████████████████████████████████████ | 5360/7135 [4:53:31<1:35:37, 3.23s/it]
{'loss': 0.7828, 'grad_norm': 4.65625, 'learning_rate': 7.459029403090887e-07, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 298.24, 'epoch': 7.51}
75%|█████████████████████████████████████████████████████████ | 5360/7135 [4:53:31<1:35:37, 3.23s/it]
75%|█████████████████████████████████████████████████████████ | 5361/7135 [4:53:34<1:35:12, 3.22s/it]
75%|█████████████████████████████████████████████████████████ | 5362/7135 [4:53:36<1:29:09, 3.02s/it]
75%|█████████████████████████████████████████████████████████▏ | 5363/7135 [4:53:39<1:26:42, 2.94s/it]
75%|█████████████████████████████████████████████████████████▏ | 5364/7135 [4:53:42<1:25:40, 2.90s/it]
75%|█████████████████████████████████████████████████████████▏ | 5365/7135 [4:53:45<1:29:05, 3.02s/it]
75%|█████████████████████████████████████████████████████████▏ | 5366/7135 [4:53:49<1:32:06, 3.12s/it]
75%|█████████████████████████████████████████████████████████▏ | 5367/7135 [4:53:51<1:29:36, 3.04s/it]
75%|█████████████████████████████████████████████████████████▏ | 5368/7135 [4:53:54<1:28:29, 3.00s/it]
75%|█████████████████████████████████████████████████████████▏ | 5369/7135 [4:53:57<1:29:24, 3.04s/it]
75%|█████████████████████████████████████████████████████████▏ | 5370/7135 [4:54:01<1:34:56, 3.23s/it]
{'loss': 0.8926, 'grad_norm': 2.921875, 'learning_rate': 7.379656319768875e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.92, 'epoch': 7.52}
75%|█████████████████████████████████████████████████████████▏ | 5370/7135 [4:54:01<1:34:56, 3.23s/it]
75%|█████████████████████████████████████████████████████████▏ | 5371/7135 [4:54:05<1:36:20, 3.28s/it]
75%|█████████████████████████████████████████████████████████▏ | 5372/7135 [4:54:08<1:37:23, 3.31s/it]
75%|█████████████████████████████████████████████████████████▏ | 5373/7135 [4:54:11<1:37:25, 3.32s/it]
75%|█████████████████████████████████████████████████████████▏ | 5374/7135 [4:54:15<1:43:23, 3.52s/it]
75%|█████████████████████████████████████████████████████████▎ | 5375/7135 [4:54:19<1:41:18, 3.45s/it]
75%|█████████████████████████████████████████████████████████▎ | 5376/7135 [4:54:22<1:41:51, 3.47s/it]
75%|█████████████████████████████████████████████████████████▎ | 5377/7135 [4:54:25<1:38:32, 3.36s/it]
75%|█████████████████████████████████████████████████████████▎ | 5378/7135 [4:54:29<1:41:20, 3.46s/it]
75%|█████████████████████████████████████████████████████████▎ | 5379/7135 [4:54:32<1:42:08, 3.49s/it]
75%|█████████████████████████████████████████████████████████▎ | 5380/7135 [4:54:36<1:39:04, 3.39s/it]
{'loss': 0.893, 'grad_norm': 4.8125, 'learning_rate': 7.300634623046257e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 533.18, 'epoch': 7.54}
75%|█████████████████████████████████████████████████████████▎ | 5380/7135 [4:54:36<1:39:04, 3.39s/it]
75%|█████████████████████████████████████████████████████████▎ | 5381/7135 [4:54:38<1:34:42, 3.24s/it]
75%|█████████████████████████████████████████████████████████▎ | 5382/7135 [4:54:42<1:33:39, 3.21s/it]
75%|█████████████████████████████████████████████████████████▎ | 5383/7135 [4:54:45<1:31:36, 3.14s/it]
75%|█████████████████████████████████████████████████████████▎ | 5384/7135 [4:54:48<1:31:20, 3.13s/it]
75%|█████████████████████████████████████████████████████████▎ | 5385/7135 [4:54:51<1:32:50, 3.18s/it]
75%|█████████████████████████████████████████████████████████▎ | 5386/7135 [4:54:55<1:37:31, 3.35s/it]
76%|█████████████████████████████████████████████████████████▍ | 5387/7135 [4:54:58<1:38:55, 3.40s/it]
76%|█████████████████████████████████████████████████████████▍ | 5388/7135 [4:55:01<1:33:15, 3.20s/it]
76%|█████████████████████████████████████████████████████████▍ | 5389/7135 [4:55:04<1:30:52, 3.12s/it]
76%|█████████████████████████████████████████████████████████▍ | 5390/7135 [4:55:07<1:33:49, 3.23s/it]
{'loss': 0.6884, 'grad_norm': 4.65625, 'learning_rate': 7.22196588878138e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 368.44, 'epoch': 7.55}
76%|█████████████████████████████████████████████████████████▍ | 5390/7135 [4:55:07<1:33:49, 3.23s/it]
76%|█████████████████████████████████████████████████████████▍ | 5391/7135 [4:55:11<1:34:30, 3.25s/it]
76%|█████████████████████████████████████████████████████████▍ | 5392/7135 [4:55:14<1:33:55, 3.23s/it]
76%|█████████████████████████████████████████████████████████▍ | 5393/7135 [4:55:17<1:29:59, 3.10s/it]
76%|█████████████████████████████████████████████████████████▍ | 5394/7135 [4:55:19<1:26:36, 2.98s/it]
76%|█████████████████████████████████████████████████████████▍ | 5395/7135 [4:55:23<1:28:14, 3.04s/it]
76%|█████████████████████████████████████████████████████████▍ | 5396/7135 [4:55:26<1:29:08, 3.08s/it]
76%|█████████████████████████████████████████████████████████▍ | 5397/7135 [4:55:29<1:29:11, 3.08s/it]
76%|█████████████████████████████████████████████████████████▍ | 5398/7135 [4:55:32<1:28:26, 3.05s/it]
76%|█████████████████████████████████████████████████████████▌ | 5399/7135 [4:55:35<1:28:40, 3.06s/it]
76%|█████████████████████████████████████████████████████████▌ | 5400/7135 [4:55:40<1:42:49, 3.56s/it]
{'loss': 0.6623, 'grad_norm': 4.96875, 'learning_rate': 7.143651685793745e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 237.87, 'epoch': 7.56}
76%|█████████████████████████████████████████████████████████▌ | 5400/7135 [4:55:40<1:42:49, 3.56s/it]
76%|█████████████████████████████████████████████████████████▌ | 5401/7135 [4:55:43<1:39:18, 3.44s/it]
76%|█████████████████████████████████████████████████████████▌ | 5402/7135 [4:55:46<1:35:23, 3.30s/it]
76%|█████████████████████████████████████████████████████████▌ | 5403/7135 [4:55:49<1:34:08, 3.26s/it]
76%|█████████████████████████████████████████████████████████▌ | 5404/7135 [4:55:52<1:35:20, 3.30s/it]
76%|█████████████████████████████████████████████████████████▌ | 5405/7135 [4:55:55<1:31:04, 3.16s/it]
76%|█████████████████████████████████████████████████████████▌ | 5406/7135 [4:55:59<1:36:41, 3.36s/it]
76%|█████████████████████████████████████████████████████████▌ | 5407/7135 [4:56:02<1:32:27, 3.21s/it]
76%|█████████████████████████████████████████████████████████▌ | 5408/7135 [4:56:05<1:31:37, 3.18s/it]
76%|█████████████████████████████████████████████████████████▌ | 5409/7135 [4:56:08<1:31:16, 3.17s/it]
76%|█████████████████████████████████████████████████████████▋ | 5410/7135 [4:56:11<1:29:23, 3.11s/it]
{'loss': 0.7705, 'grad_norm': 6.65625, 'learning_rate': 7.065693575832764e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 463.14, 'epoch': 7.58}
76%|█████████████████████████████████████████████████████████▋ | 5410/7135 [4:56:11<1:29:23, 3.11s/it]
76%|█████████████████████████████████████████████████████████▋ | 5411/7135 [4:56:14<1:31:34, 3.19s/it]
76%|█████████████████████████████████████████████████████████▋ | 5412/7135 [4:56:18<1:35:53, 3.34s/it]
76%|█████████████████████████████████████████████████████████▋ | 5413/7135 [4:56:21<1:33:45, 3.27s/it]
76%|█████████████████████████████████████████████████████████▋ | 5414/7135 [4:56:24<1:31:55, 3.20s/it]
76%|█████████████████████████████████████████████████████████▋ | 5415/7135 [4:56:28<1:32:38, 3.23s/it]
76%|█████████████████████████████████████████████████████████▋ | 5416/7135 [4:56:31<1:31:23, 3.19s/it]
76%|█████████████████████████████████████████████████████████▋ | 5417/7135 [4:56:34<1:29:40, 3.13s/it]
76%|█████████████████████████████████████████████████████████▋ | 5418/7135 [4:56:36<1:26:18, 3.02s/it]
76%|█████████████████████████████████████████████████████████▋ | 5419/7135 [4:56:40<1:32:29, 3.23s/it]
76%|█████████████████████████████████████████████████████████▋ | 5420/7135 [4:56:43<1:30:48, 3.18s/it]
{'loss': 0.8274, 'grad_norm': 5.0, 'learning_rate': 6.988093113546626e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.71, 'epoch': 7.59}
76%|█████████████████████████████████████████████████████████▋ | 5420/7135 [4:56:43<1:30:48, 3.18s/it]
76%|█████████████████████████████████████████████████████████▋ | 5421/7135 [4:56:46<1:30:16, 3.16s/it]
76%|█████████████████████████████████████████████████████████▊ | 5422/7135 [4:56:50<1:30:42, 3.18s/it]
76%|█████████████████████████████████████████████████████████▊ | 5423/7135 [4:56:53<1:30:41, 3.18s/it]
76%|█████████████████████████████████████████████████████████▊ | 5424/7135 [4:56:56<1:31:27, 3.21s/it]
76%|█████████████████████████████████████████████████████████▊ | 5425/7135 [4:56:59<1:27:04, 3.06s/it]
76%|█████████████████████████████████████████████████████████▊ | 5426/7135 [4:57:02<1:25:39, 3.01s/it]
76%|█████████████████████████████████████████████████████████▊ | 5427/7135 [4:57:05<1:27:02, 3.06s/it]
76%|█████████████████████████████████████████████████████████▊ | 5428/7135 [4:57:08<1:29:36, 3.15s/it]
76%|█████████████████████████████████████████████████████████▊ | 5429/7135 [4:57:12<1:34:19, 3.32s/it]
76%|█████████████████████████████████████████████████████████▊ | 5430/7135 [4:57:15<1:30:47, 3.19s/it]
{'loss': 0.5969, 'grad_norm': 5.65625, 'learning_rate': 6.910851846451258e-07, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 428.33, 'epoch': 7.61}
76%|█████████████████████████████████████████████████████████▊ | 5430/7135 [4:57:15<1:30:47, 3.19s/it]
76%|█████████████████████████████████████████████████████████▊ | 5431/7135 [4:57:18<1:28:28, 3.12s/it]
76%|█████████████████████████████████████████████████████████▊ | 5432/7135 [4:57:20<1:24:46, 2.99s/it]
76%|█████████████████████████████████████████████████████████▊ | 5433/7135 [4:57:23<1:22:08, 2.90s/it]
76%|█████████████████████████████████████████████████████████▉ | 5434/7135 [4:57:26<1:25:21, 3.01s/it]
76%|█████████████████████████████████████████████████████████▉ | 5435/7135 [4:57:29<1:24:50, 2.99s/it]
76%|█████████████████████████████████████████████████████████▉ | 5436/7135 [4:57:32<1:23:29, 2.95s/it]
76%|█████████████████████████████████████████████████████████▉ | 5437/7135 [4:57:35<1:23:32, 2.95s/it]
76%|█████████████████████████████████████████████████████████▉ | 5438/7135 [4:57:38<1:25:27, 3.02s/it]
76%|█████████████████████████████████████████████████████████▉ | 5439/7135 [4:57:42<1:28:05, 3.12s/it]
76%|█████████████████████████████████████████████████████████▉ | 5440/7135 [4:57:44<1:25:39, 3.03s/it]
{'loss': 0.6935, 'grad_norm': 5.5, 'learning_rate': 6.833971314899473e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.19, 'epoch': 7.62}
76%|█████████████████████████████████████████████████████████▉ | 5440/7135 [4:57:44<1:25:39, 3.03s/it]
76%|█████████████████████████████████████████████████████████▉ | 5441/7135 [4:57:48<1:33:07, 3.30s/it]
76%|█████████████████████████████████████████████████████████▉ | 5442/7135 [4:57:52<1:33:52, 3.33s/it]
76%|█████████████████████████████████████████████████████████▉ | 5443/7135 [4:57:55<1:34:02, 3.34s/it]
76%|█████████████████████████████████████████████████████████▉ | 5444/7135 [4:57:58<1:33:42, 3.32s/it]
76%|█████████████████████████████████████████████████████████▉ | 5445/7135 [4:58:02<1:38:14, 3.49s/it]
76%|██████████████████████████████████████████████████████████ | 5446/7135 [4:58:06<1:36:43, 3.44s/it]
76%|██████████████████████████████████████████████████████████ | 5447/7135 [4:58:09<1:35:40, 3.40s/it]
76%|██████████████████████████████████████████████████████████ | 5448/7135 [4:58:12<1:33:32, 3.33s/it]
76%|██████████████████████████████████████████████████████████ | 5449/7135 [4:58:16<1:35:17, 3.39s/it]
76%|██████████████████████████████████████████████████████████ | 5450/7135 [4:58:18<1:30:11, 3.21s/it]
{'loss': 0.8366, 'grad_norm': 5.5625, 'learning_rate': 6.757453052050295e-07, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 653.51, 'epoch': 7.63}
76%|██████████████████████████████████████████████████████████ | 5450/7135 [4:58:18<1:30:11, 3.21s/it]
76%|██████████████████████████████████████████████████████████ | 5451/7135 [4:58:21<1:27:37, 3.12s/it]
76%|██████████████████████████████████████████████████████████ | 5452/7135 [4:58:24<1:27:54, 3.13s/it]
76%|██████████████████████████████████████████████████████████ | 5453/7135 [4:58:28<1:28:17, 3.15s/it]
76%|██████████████████████████████████████████████████████████ | 5454/7135 [4:58:31<1:33:06, 3.32s/it]
76%|██████████████████████████████████████████████████████████ | 5455/7135 [4:58:34<1:30:54, 3.25s/it]
76%|██████████████████████████████████████████████████████████ | 5456/7135 [4:58:37<1:28:15, 3.15s/it]
76%|██████████████████████████████████████████████████████████▏ | 5457/7135 [4:58:41<1:28:46, 3.17s/it]
76%|██████████████████████████████████████████████████████████▏ | 5458/7135 [4:58:44<1:30:57, 3.25s/it]
77%|██████████████████████████████████████████████████████████▏ | 5459/7135 [4:58:47<1:26:54, 3.11s/it]
77%|██████████████████████████████████████████████████████████▏ | 5460/7135 [4:58:50<1:24:09, 3.01s/it]
{'loss': 0.6913, 'grad_norm': 5.5, 'learning_rate': 6.681298583838316e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.5, 'epoch': 7.65}
77%|██████████████████████████████████████████████████████████▏ | 5460/7135 [4:58:50<1:24:09, 3.01s/it]
77%|██████████████████████████████████████████████████████████▏ | 5461/7135 [4:58:53<1:23:58, 3.01s/it]
77%|██████████████████████████████████████████████████████████▏ | 5462/7135 [4:58:56<1:27:32, 3.14s/it]
77%|██████████████████████████████████████████████████████████▏ | 5463/7135 [4:58:59<1:26:11, 3.09s/it]
77%|██████████████████████████████████████████████████████████▏ | 5464/7135 [4:59:02<1:24:50, 3.05s/it]
77%|██████████████████████████████████████████████████████████▏ | 5465/7135 [4:59:05<1:27:51, 3.16s/it]
77%|██████████████████████████████████████████████████████████▏ | 5466/7135 [4:59:08<1:25:59, 3.09s/it]
77%|██████████████████████████████████████████████████████████▏ | 5467/7135 [4:59:12<1:28:02, 3.17s/it]
77%|██████████████████████████████████████████████████████████▏ | 5468/7135 [4:59:14<1:24:35, 3.04s/it]
77%|██████████████████████████████████████████████████████████▎ | 5469/7135 [4:59:17<1:24:03, 3.03s/it]
77%|██████████████████████████████████████████████████████████▎ | 5470/7135 [4:59:20<1:23:59, 3.03s/it]
{'loss': 0.7759, 'grad_norm': 4.15625, 'learning_rate': 6.605509428943316e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.56, 'epoch': 7.66}
77%|██████████████████████████████████████████████████████████▎ | 5470/7135 [4:59:20<1:23:59, 3.03s/it]
77%|██████████████████████████████████████████████████████████▎ | 5471/7135 [4:59:24<1:26:33, 3.12s/it]
77%|██████████████████████████████████████████████████████████▎ | 5472/7135 [4:59:27<1:24:01, 3.03s/it]
77%|██████████████████████████████████████████████████████████▎ | 5473/7135 [4:59:30<1:25:27, 3.09s/it]
77%|██████████████████████████████████████████████████████████▎ | 5474/7135 [4:59:33<1:24:26, 3.05s/it]
77%|██████████████████████████████████████████████████████████▎ | 5475/7135 [4:59:37<1:31:24, 3.30s/it]
77%|██████████████████████████████████████████████████████████▎ | 5476/7135 [4:59:39<1:26:55, 3.14s/it]
77%|██████████████████████████████████████████████████████████▎ | 5477/7135 [4:59:43<1:31:24, 3.31s/it]
77%|██████████████████████████████████████████████████████████▎ | 5478/7135 [4:59:47<1:31:49, 3.32s/it]
77%|██████████████████████████████████████████████████████████▎ | 5479/7135 [4:59:50<1:30:58, 3.30s/it]
77%|██████████████████████████████████████████████████████████▎ | 5480/7135 [4:59:53<1:27:02, 3.16s/it]
{'loss': 0.7212, 'grad_norm': 4.03125, 'learning_rate': 6.530087098759957e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 461.04, 'epoch': 7.68}
77%|██████████████████████████████████████████████████████████▎ | 5480/7135 [4:59:53<1:27:02, 3.16s/it]
77%|██████████████████████████████████████████████████████████▍ | 5481/7135 [4:59:56<1:29:15, 3.24s/it]
77%|██████████████████████████████████████████████████████████▍ | 5482/7135 [4:59:59<1:26:18, 3.13s/it]
77%|██████████████████████████████████████████████████████████▍ | 5483/7135 [5:00:02<1:24:03, 3.05s/it]
77%|██████████████████████████████████████████████████████████▍ | 5484/7135 [5:00:05<1:22:19, 2.99s/it]
77%|██████████████████████████████████████████████████████████▍ | 5485/7135 [5:00:07<1:20:43, 2.94s/it]
77%|██████████████████████████████████████████████████████████▍ | 5486/7135 [5:00:11<1:22:21, 3.00s/it]
77%|██████████████████████████████████████████████████████████▍ | 5487/7135 [5:00:14<1:22:06, 2.99s/it]
77%|██████████████████████████████████████████████████████████▍ | 5488/7135 [5:00:17<1:24:28, 3.08s/it]
77%|██████████████████████████████████████████████████████████▍ | 5489/7135 [5:00:19<1:20:20, 2.93s/it]
77%|██████████████████████████████████████████████████████████▍ | 5490/7135 [5:00:23<1:22:28, 3.01s/it]
{'loss': 0.7153, 'grad_norm': 5.9375, 'learning_rate': 6.455033097367652e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 330.1, 'epoch': 7.69}
77%|██████████████████████████████████████████████████████████▍ | 5490/7135 [5:00:23<1:22:28, 3.01s/it]
77%|██████████████████████████████████████████████████████████▍ | 5491/7135 [5:00:26<1:24:38, 3.09s/it]
77%|██████████████████████████████████████████████████████████▍ | 5492/7135 [5:00:30<1:32:13, 3.37s/it]
77%|██████████████████████████████████████████████████████████▌ | 5493/7135 [5:00:33<1:29:38, 3.28s/it]
77%|██████████████████████████████████████████████████████████▌ | 5494/7135 [5:00:36<1:31:26, 3.34s/it]
77%|██████████████████████████████████████████████████████████▌ | 5495/7135 [5:00:39<1:27:51, 3.21s/it]
77%|██████████████████████████████████████████████████████████▌ | 5496/7135 [5:00:43<1:29:55, 3.29s/it]
77%|██████████████████████████████████████████████████████████▌ | 5497/7135 [5:00:46<1:30:54, 3.33s/it]
77%|██████████████████████████████████████████████████████████▌ | 5498/7135 [5:00:49<1:26:19, 3.16s/it]
77%|██████████████████████████████████████████████████████████▌ | 5499/7135 [5:00:52<1:27:00, 3.19s/it]
77%|██████████████████████████████████████████████████████████▌ | 5500/7135 [5:00:55<1:25:15, 3.13s/it]
{'loss': 0.9097, 'grad_norm': 5.625, 'learning_rate': 6.380348921500551e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 528.54, 'epoch': 7.7}
77%|██████████████████████████████████████████████████████████▌ | 5500/7135 [5:00:55<1:25:15, 3.13s/it]
77%|██████████████████████████████████████████████████████████▌ | 5501/7135 [5:00:59<1:32:03, 3.38s/it]
77%|██████████████████████████████████████████████████████████▌ | 5502/7135 [5:01:02<1:27:19, 3.21s/it]
77%|██████████████████████████████████████████████████████████▌ | 5503/7135 [5:01:06<1:30:30, 3.33s/it]
77%|██████████████████████████████████████████████████████████▋ | 5504/7135 [5:01:09<1:28:43, 3.26s/it]
77%|██████████████████████████████████████████████████████████▋ | 5505/7135 [5:01:12<1:25:05, 3.13s/it]
77%|██████████████████████████████████████████████████████████▋ | 5506/7135 [5:01:15<1:27:15, 3.21s/it]
77%|██████████████████████████████████████████████████████████▋ | 5507/7135 [5:01:19<1:29:58, 3.32s/it]
77%|██████████████████████████████████████████████████████████▋ | 5508/7135 [5:01:22<1:30:34, 3.34s/it]
77%|██████████████████████████████████████████████████████████▋ | 5509/7135 [5:01:25<1:31:21, 3.37s/it]
77%|██████████████████████████████████████████████████████████▋ | 5510/7135 [5:01:29<1:31:38, 3.38s/it]
{'loss': 0.6278, 'grad_norm': 4.59375, 'learning_rate': 6.306036060517734e-07, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.45, 'epoch': 7.72}
77%|██████████████████████████████████████████████████████████▋ | 5510/7135 [5:01:29<1:31:38, 3.38s/it]
77%|██████████████████████████████████████████████████████████▋ | 5511/7135 [5:01:32<1:30:06, 3.33s/it]
77%|██████████████████████████████████████████████████████████▋ | 5512/7135 [5:01:35<1:26:21, 3.19s/it]
77%|██████████████████████████████████████████████████████████▋ | 5513/7135 [5:01:38<1:27:11, 3.23s/it]
77%|██████████████████████████████████████████████████████████▋ | 5514/7135 [5:01:42<1:28:53, 3.29s/it]
77%|██████████████████████████████████████████████████████████▋ | 5515/7135 [5:01:44<1:24:30, 3.13s/it]
77%|██████████████████████████████████████████████████████████▊ | 5516/7135 [5:01:47<1:22:47, 3.07s/it]
77%|██████████████████████████████████████████████████████████▊ | 5517/7135 [5:01:50<1:23:16, 3.09s/it]
77%|██████████████████████████████████████████████████████████▊ | 5518/7135 [5:01:54<1:24:39, 3.14s/it]
77%|██████████████████████████████████████████████████████████▊ | 5519/7135 [5:01:57<1:22:43, 3.07s/it]
77%|██████████████████████████████████████████████████████████▊ | 5520/7135 [5:02:00<1:23:10, 3.09s/it]
{'loss': 0.5915, 'grad_norm': 4.5, 'learning_rate': 6.232095996373467e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 373.86, 'epoch': 7.73}
77%|██████████████████████████████████████████████████████████▊ | 5520/7135 [5:02:00<1:23:10, 3.09s/it]
77%|██████████████████████████████████████████████████████████▊ | 5521/7135 [5:02:03<1:26:00, 3.20s/it]
77%|██████████████████████████████████████████████████████████▊ | 5522/7135 [5:02:06<1:23:42, 3.11s/it]
77%|██████████████████████████████████████████████████████████▊ | 5523/7135 [5:02:09<1:25:38, 3.19s/it]
77%|██████████████████████████████████████████████████████████▊ | 5524/7135 [5:02:12<1:24:12, 3.14s/it]
77%|██████████████████████████████████████████████████████████▊ | 5525/7135 [5:02:16<1:29:35, 3.34s/it]
77%|██████████████████████████████████████████████████████████▊ | 5526/7135 [5:02:19<1:26:05, 3.21s/it]
77%|██████████████████████████████████████████████████████████▊ | 5527/7135 [5:02:22<1:21:15, 3.03s/it]
77%|██████████████████████████████████████████████████████████▉ | 5528/7135 [5:02:25<1:23:37, 3.12s/it]
77%|██████████████████████████████████████████████████████████▉ | 5529/7135 [5:02:29<1:29:12, 3.33s/it]
78%|██████████████████████████████████████████████████████████▉ | 5530/7135 [5:02:32<1:25:48, 3.21s/it]
{'loss': 0.7767, 'grad_norm': 4.65625, 'learning_rate': 6.158530203587651e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.32, 'epoch': 7.75}
78%|██████████████████████████████████████████████████████████▉ | 5530/7135 [5:02:32<1:25:48, 3.21s/it]
78%|██████████████████████████████████████████████████████████▉ | 5531/7135 [5:02:35<1:25:39, 3.20s/it]
78%|██████████████████████████████████████████████████████████▉ | 5532/7135 [5:02:38<1:24:04, 3.15s/it]
78%|██████████████████████████████████████████████████████████▉ | 5533/7135 [5:02:42<1:29:12, 3.34s/it]
78%|██████████████████████████████████████████████████████████▉ | 5534/7135 [5:02:45<1:25:09, 3.19s/it]
78%|██████████████████████████████████████████████████████████▉ | 5535/7135 [5:02:48<1:26:54, 3.26s/it]
78%|██████████████████████████████████████████████████████████▉ | 5536/7135 [5:02:51<1:25:12, 3.20s/it]
78%|██████████████████████████████████████████████████████████▉ | 5537/7135 [5:02:54<1:23:37, 3.14s/it]
78%|██████████████████████████████████████████████████████████▉ | 5538/7135 [5:02:57<1:20:39, 3.03s/it]
78%|██████████████████████████████████████████████████████████▉ | 5539/7135 [5:02:59<1:16:18, 2.87s/it]
78%|███████████████████████████████████████████████████████████ | 5540/7135 [5:03:02<1:16:56, 2.89s/it]
{'loss': 0.7167, 'grad_norm': 4.4375, 'learning_rate': 6.085340149216467e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 395.92, 'epoch': 7.76}
78%|███████████████████████████████████████████████████████████ | 5540/7135 [5:03:02<1:16:56, 2.89s/it]
78%|███████████████████████████████████████████████████████████ | 5541/7135 [5:03:05<1:17:48, 2.93s/it]
78%|███████████████████████████████████████████████████████████ | 5542/7135 [5:03:09<1:19:47, 3.01s/it]
78%|███████████████████████████████████████████████████████████ | 5543/7135 [5:03:13<1:27:01, 3.28s/it]
78%|███████████████████████████████████████████████████████████ | 5544/7135 [5:03:16<1:25:20, 3.22s/it]
78%|███████████████████████████████████████████████████████████ | 5545/7135 [5:03:18<1:22:13, 3.10s/it]
78%|███████████████████████████████████████████████████████████ | 5546/7135 [5:03:21<1:21:35, 3.08s/it]
78%|███████████████████████████████████████████████████████████ | 5547/7135 [5:03:25<1:27:14, 3.30s/it]
78%|███████████████████████████████████████████████████████████ | 5548/7135 [5:03:29<1:27:05, 3.29s/it]
78%|███████████████████████████████████████████████████████████ | 5549/7135 [5:03:32<1:25:52, 3.25s/it]
78%|███████████████████████████████████████████████████████████ | 5550/7135 [5:03:35<1:29:14, 3.38s/it]
{'loss': 0.7153, 'grad_norm': 5.65625, 'learning_rate': 6.012527292823059e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.34, 'epoch': 7.77}
78%|███████████████████████████████████████████████████████████ | 5550/7135 [5:03:35<1:29:14, 3.38s/it]
78%|███████████████████████████████████████████████████████████▏ | 5551/7135 [5:03:39<1:27:56, 3.33s/it]
78%|███████████████████████████████████████████████████████████▏ | 5552/7135 [5:03:42<1:25:02, 3.22s/it]
78%|███████████████████████████████████████████████████████████▏ | 5553/7135 [5:03:45<1:26:41, 3.29s/it]
78%|███████████████████████████████████████████████████████████▏ | 5554/7135 [5:03:48<1:24:35, 3.21s/it]
78%|███████████████████████████████████████████████████████████▏ | 5555/7135 [5:03:51<1:22:43, 3.14s/it]
78%|███████████████████████████████████████████████████████████▏ | 5556/7135 [5:03:54<1:22:11, 3.12s/it]
78%|███████████████████████████████████████████████████████████▏ | 5557/7135 [5:03:57<1:23:51, 3.19s/it]
78%|███████████████████████████████████████████████████████████▏ | 5558/7135 [5:04:00<1:22:27, 3.14s/it]
78%|███████████████████████████████████████████████████████████▏ | 5559/7135 [5:04:04<1:21:44, 3.11s/it]
78%|███████████████████████████████████████████████████████████▏ | 5560/7135 [5:04:07<1:24:56, 3.24s/it]
{'loss': 0.7611, 'grad_norm': 3.9375, 'learning_rate': 5.940093086448445e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 353.97, 'epoch': 7.79}
78%|███████████████████████████████████████████████████████████▏ | 5560/7135 [5:04:07<1:24:56, 3.24s/it]
78%|███████████████████████████████████████████████████████████▏ | 5561/7135 [5:04:11<1:31:56, 3.50s/it]
78%|███████████████████████████████████████████████████████████▏ | 5562/7135 [5:04:14<1:27:05, 3.32s/it]
78%|███████████████████████████████████████████████████████████▎ | 5563/7135 [5:04:17<1:26:11, 3.29s/it]
78%|███████████████████████████████████████████████████████████▎ | 5564/7135 [5:04:20<1:23:58, 3.21s/it]
78%|███████████████████████████████████████████████████████████▎ | 5565/7135 [5:04:23<1:20:54, 3.09s/it]
78%|███████████████████████████████████████████████████████████▎ | 5566/7135 [5:04:26<1:21:27, 3.12s/it]
78%|███████████████████████████████████████████████████████████▎ | 5567/7135 [5:04:29<1:19:25, 3.04s/it]
78%|███████████████████████████████████████████████████████████▎ | 5568/7135 [5:04:33<1:21:48, 3.13s/it]
78%|███████████████████████████████████████████████████████████▎ | 5569/7135 [5:04:36<1:25:45, 3.29s/it]
78%|███████████████████████████████████████████████████████████▎ | 5570/7135 [5:04:39<1:23:24, 3.20s/it]
{'loss': 0.7016, 'grad_norm': 6.25, 'learning_rate': 5.868038974582598e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 435.74, 'epoch': 7.8}
78%|███████████████████████████████████████████████████████████▎ | 5570/7135 [5:04:39<1:23:24, 3.20s/it]
78%|███████████████████████████████████████████████████████████▎ | 5571/7135 [5:04:42<1:22:55, 3.18s/it]
78%|███████████████████████████████████████████████████████████▎ | 5572/7135 [5:04:46<1:24:02, 3.23s/it]
78%|███████████████████████████████████████████████████████████▎ | 5573/7135 [5:04:49<1:25:27, 3.28s/it]
78%|███████████████████████████████████████████████████████████▎ | 5574/7135 [5:04:53<1:28:58, 3.42s/it]
78%|███████████████████████████████████████████████████████████▍ | 5575/7135 [5:04:56<1:28:06, 3.39s/it]
78%|███████████████████████████████████████████████████████████▍ | 5576/7135 [5:04:59<1:25:30, 3.29s/it]
78%|███████████████████████████████████████████████████████████▍ | 5577/7135 [5:05:02<1:25:24, 3.29s/it]
78%|███████████████████████████████████████████████████████████▍ | 5578/7135 [5:05:06<1:28:37, 3.42s/it]
78%|███████████████████████████████████████████████████████████▍ | 5579/7135 [5:05:09<1:27:31, 3.38s/it]
78%|███████████████████████████████████████████████████████████▍ | 5580/7135 [5:05:13<1:29:01, 3.43s/it]
{'loss': 0.7604, 'grad_norm': 4.8125, 'learning_rate': 5.796366394135586e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.7, 'epoch': 7.82}
78%|███████████████████████████████████████████████████████████▍ | 5580/7135 [5:05:13<1:29:01, 3.43s/it]
78%|███████████████████████████████████████████████████████████▍ | 5581/7135 [5:05:16<1:25:13, 3.29s/it]
78%|███████████████████████████████████████████████████████████▍ | 5582/7135 [5:05:20<1:27:13, 3.37s/it]
78%|███████████████████████████████████████████████████████████▍ | 5583/7135 [5:05:22<1:23:43, 3.24s/it]
78%|███████████████████████████████████████████████████████████▍ | 5584/7135 [5:05:27<1:33:52, 3.63s/it]
78%|███████████████████████████████████████████████████████████▍ | 5585/7135 [5:05:30<1:27:22, 3.38s/it]
78%|███████████████████████████████████████████████████████████▌ | 5586/7135 [5:05:33<1:24:01, 3.25s/it]
78%|███████████████████████████████████████████████████████████▌ | 5587/7135 [5:05:36<1:22:55, 3.21s/it]
78%|███████████████████████████████████████████████████████████▌ | 5588/7135 [5:05:39<1:20:52, 3.14s/it]
78%|███████████████████████████████████████████████████████████▌ | 5589/7135 [5:05:42<1:24:16, 3.27s/it]
78%|███████████████████████████████████████████████████████████▌ | 5590/7135 [5:05:46<1:22:52, 3.22s/it]
{'loss': 0.8343, 'grad_norm': 4.125, 'learning_rate': 5.725076774408944e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 524.62, 'epoch': 7.83}
78%|███████████████████████████████████████████████████████████▌ | 5590/7135 [5:05:46<1:22:52, 3.22s/it]
78%|███████████████████████████████████████████████████████████▌ | 5591/7135 [5:05:49<1:21:21, 3.16s/it]
78%|███████████████████████████████████████████████████████████▌ | 5592/7135 [5:05:52<1:19:49, 3.10s/it]
78%|███████████████████████████████████████████████████████████▌ | 5593/7135 [5:05:55<1:20:42, 3.14s/it]
78%|███████████████████████████████████████████████████████████▌ | 5594/7135 [5:05:58<1:25:26, 3.33s/it]
78%|███████████████████████████████████████████████████████████▌ | 5595/7135 [5:06:02<1:23:25, 3.25s/it]
78%|███████████████████████████████████████████████████████████▌ | 5596/7135 [5:06:05<1:23:31, 3.26s/it]
78%|███████████████████████████████████████████████████████████▌ | 5597/7135 [5:06:08<1:23:50, 3.27s/it]
78%|███████████████████████████████████████████████████████████▋ | 5598/7135 [5:06:11<1:22:54, 3.24s/it]
78%|███████████████████████████████████████████████████████████▋ | 5599/7135 [5:06:14<1:18:10, 3.05s/it]
78%|███████████████████████████████████████████████████████████▋ | 5600/7135 [5:06:17<1:19:36, 3.11s/it]
{'loss': 0.8414, 'grad_norm': 6.15625, 'learning_rate': 5.654171537067172e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.36, 'epoch': 7.84}
78%|███████████████████████████████████████████████████████████▋ | 5600/7135 [5:06:17<1:19:36, 3.11s/it]
79%|███████████████████████████████████████████████████████████▋ | 5601/7135 [5:06:20<1:18:10, 3.06s/it]
79%|███████████████████████████████████████████████████████████▋ | 5602/7135 [5:06:24<1:21:34, 3.19s/it]
79%|███████████████████████████████████████████████████████████▋ | 5603/7135 [5:06:27<1:23:11, 3.26s/it]
79%|███████████████████████████████████████████████████████████▋ | 5604/7135 [5:06:30<1:23:43, 3.28s/it]
79%|███████████████████████████████████████████████████████████▋ | 5605/7135 [5:06:33<1:22:35, 3.24s/it]
79%|███████████████████████████████████████████████████████████▋ | 5606/7135 [5:06:37<1:22:13, 3.23s/it]
79%|███████████████████████████████████████████████████████████▋ | 5607/7135 [5:06:40<1:19:29, 3.12s/it]
79%|███████████████████████████████████████████████████████████▋ | 5608/7135 [5:06:43<1:20:23, 3.16s/it]
79%|███████████████████████████████████████████████████████████▋ | 5609/7135 [5:06:46<1:21:01, 3.19s/it]
79%|███████████████████████████████████████████████████████████▊ | 5610/7135 [5:06:49<1:22:10, 3.23s/it]
{'loss': 0.7265, 'grad_norm': 4.46875, 'learning_rate': 5.583652096109368e-07, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 398.18, 'epoch': 7.86}
79%|███████████████████████████████████████████████████████████▊ | 5610/7135 [5:06:49<1:22:10, 3.23s/it]
79%|███████████████████████████████████████████████████████████▊ | 5611/7135 [5:06:52<1:20:25, 3.17s/it]
79%|███████████████████████████████████████████████████████████▊ | 5612/7135 [5:06:56<1:20:49, 3.18s/it]
79%|███████████████████████████████████████████████████████████▊ | 5613/7135 [5:06:58<1:16:52, 3.03s/it]
79%|███████████████████████████████████████████████████████████▊ | 5614/7135 [5:07:02<1:20:48, 3.19s/it]
79%|███████████████████████████████████████████████████████████▊ | 5615/7135 [5:07:05<1:18:18, 3.09s/it]
79%|███████████████████████████████████████████████████████████▊ | 5616/7135 [5:07:08<1:20:11, 3.17s/it]
79%|███████████████████████████████████████████████████████████▊ | 5617/7135 [5:07:11<1:19:26, 3.14s/it]
79%|███████████████████████████████████████████████████████████▊ | 5618/7135 [5:07:14<1:20:03, 3.17s/it]
79%|███████████████████████████████████████████████████████████▊ | 5619/7135 [5:07:17<1:18:06, 3.09s/it]
79%|███████████████████████████████████████████████████████████▊ | 5620/7135 [5:07:21<1:21:10, 3.21s/it]
{'loss': 0.6622, 'grad_norm': 4.6875, 'learning_rate': 5.513519857841066e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 338.0, 'epoch': 7.87}
79%|███████████████████████████████████████████████████████████▊ | 5620/7135 [5:07:21<1:21:10, 3.21s/it]
79%|███████████████████████████████████████████████████████████▊ | 5621/7135 [5:07:24<1:19:02, 3.13s/it]
79%|███████████████████████████████████████████████████████████▉ | 5622/7135 [5:07:27<1:20:09, 3.18s/it]
79%|███████████████████████████████████████████████████████████▉ | 5623/7135 [5:07:30<1:18:49, 3.13s/it]
79%|███████████████████████████████████████████████████████████▉ | 5624/7135 [5:07:34<1:22:21, 3.27s/it]
79%|███████████████████████████████████████████████████████████▉ | 5625/7135 [5:07:37<1:19:50, 3.17s/it]
79%|███████████████████████████████████████████████████████████▉ | 5626/7135 [5:07:40<1:18:03, 3.10s/it]
79%|███████████████████████████████████████████████████████████▉ | 5627/7135 [5:07:43<1:21:57, 3.26s/it]
79%|███████████████████████████████████████████████████████████▉ | 5628/7135 [5:07:46<1:20:25, 3.20s/it]
79%|███████████████████████████████████████████████████████████▉ | 5629/7135 [5:07:49<1:15:49, 3.02s/it]
79%|███████████████████████████████████████████████████████████▉ | 5630/7135 [5:07:52<1:16:30, 3.05s/it]
{'loss': 0.6463, 'grad_norm': 4.40625, 'learning_rate': 5.443776220846139e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.29, 'epoch': 7.89}
79%|███████████████████████████████████████████████████████████▉ | 5630/7135 [5:07:52<1:16:30, 3.05s/it]
79%|███████████████████████████████████████████████████████████▉ | 5631/7135 [5:07:55<1:14:43, 2.98s/it]
79%|███████████████████████████████████████████████████████████▉ | 5632/7135 [5:07:58<1:16:25, 3.05s/it]
79%|████████████████████████████████████████████████████████████ | 5633/7135 [5:08:01<1:13:58, 2.96s/it]
79%|████████████████████████████████████████████████████████████ | 5634/7135 [5:08:04<1:14:33, 2.98s/it]
79%|████████████████████████████████████████████████████████████ | 5635/7135 [5:08:07<1:13:13, 2.93s/it]
79%|████████████████████████████████████████████████████████████ | 5636/7135 [5:08:09<1:12:32, 2.90s/it]
79%|████████████████████████████████████████████████████████████ | 5637/7135 [5:08:13<1:18:23, 3.14s/it]
79%|████████████████████████████████████████████████████████████ | 5638/7135 [5:08:16<1:17:58, 3.13s/it]
79%|████████████████████████████████████████████████████████████ | 5639/7135 [5:08:20<1:20:02, 3.21s/it]
79%|████████████████████████████████████████████████████████████ | 5640/7135 [5:08:23<1:22:27, 3.31s/it]
{'loss': 0.7038, 'grad_norm': 4.125, 'learning_rate': 5.374422575958949e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 356.32, 'epoch': 7.9}
79%|████████████████████████████████████████████████████████████ | 5640/7135 [5:08:23<1:22:27, 3.31s/it]
79%|████████████████████████████████████████████████████████████ | 5641/7135 [5:08:26<1:18:22, 3.15s/it]
79%|████████████████████████████████████████████████████████████ | 5642/7135 [5:08:29<1:17:55, 3.13s/it]
79%|████████████████████████████████████████████████████████████ | 5643/7135 [5:08:32<1:18:00, 3.14s/it]
79%|████████████████████████████████████████████████████████████ | 5644/7135 [5:08:36<1:21:07, 3.26s/it]
79%|████████████████████████████████████████████████████████████▏ | 5645/7135 [5:08:39<1:21:00, 3.26s/it]
79%|████████████████████████████████████████████████████████████▏ | 5646/7135 [5:08:43<1:24:36, 3.41s/it]
79%|████████████████████████████████████████████████████████████▏ | 5647/7135 [5:08:46<1:20:59, 3.27s/it]
79%|████████████████████████████████████████████████████████████▏ | 5648/7135 [5:08:49<1:21:40, 3.30s/it]
79%|████████████████████████████████████████████████████████████▏ | 5649/7135 [5:08:52<1:18:27, 3.17s/it]
79%|████████████████████████████████████████████████████████████▏ | 5650/7135 [5:08:55<1:16:46, 3.10s/it]
{'loss': 0.8126, 'grad_norm': 4.6875, 'learning_rate': 5.305460306236601e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.92, 'epoch': 7.91}
79%|████████████████████████████████████████████████████████████▏ | 5650/7135 [5:08:55<1:16:46, 3.10s/it]
79%|████████████████████████████████████████████████████████████▏ | 5651/7135 [5:08:58<1:16:48, 3.11s/it]
79%|████████████████████████████████████████████████████████████▏ | 5652/7135 [5:09:01<1:14:56, 3.03s/it]
79%|████████████████████████████████████████████████████████████▏ | 5653/7135 [5:09:04<1:14:30, 3.02s/it]
79%|████████████████████████████████████████████████████████████▏ | 5654/7135 [5:09:08<1:21:17, 3.29s/it]
79%|████████████████████████████████████████████████████████████▏ | 5655/7135 [5:09:11<1:20:15, 3.25s/it]
79%|████████████████████████████████████████████████████████████▏ | 5656/7135 [5:09:14<1:17:53, 3.16s/it]
79%|████████████████████████████████████████████████████████████▎ | 5657/7135 [5:09:17<1:16:49, 3.12s/it]
79%|████████████████████████████████████████████████████████████▎ | 5658/7135 [5:09:20<1:17:06, 3.13s/it]
79%|████████████████████████████████████████████████████████████▎ | 5659/7135 [5:09:23<1:17:28, 3.15s/it]
79%|████████████████████████████████████████████████████████████▎ | 5660/7135 [5:09:26<1:15:57, 3.09s/it]
{'loss': 0.8021, 'grad_norm': 24.75, 'learning_rate': 5.236890786931354e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 426.91, 'epoch': 7.93}
79%|████████████████████████████████████████████████████████████▎ | 5660/7135 [5:09:26<1:15:57, 3.09s/it]
79%|████████████████████████████████████████████████████████████▎ | 5661/7135 [5:09:29<1:16:20, 3.11s/it]
79%|████████████████████████████████████████████████████████████▎ | 5662/7135 [5:09:32<1:15:02, 3.06s/it]
79%|████████████████████████████████████████████████████████████▎ | 5663/7135 [5:09:35<1:13:32, 3.00s/it]
79%|████████████████████████████████████████████████████████████▎ | 5664/7135 [5:09:38<1:15:26, 3.08s/it]
79%|████████████████████████████████████████████████████████████▎ | 5665/7135 [5:09:42<1:17:08, 3.15s/it]
79%|████████████████████████████████████████████████████████████▎ | 5666/7135 [5:09:46<1:22:48, 3.38s/it]
79%|████████████████████████████████████████████████████████████▎ | 5667/7135 [5:09:49<1:19:43, 3.26s/it]
79%|████████████████████████████████████████████████████████████▎ | 5668/7135 [5:09:52<1:18:12, 3.20s/it]
79%|████████████████████████████████████████████████████████████▍ | 5669/7135 [5:09:55<1:17:53, 3.19s/it]
79%|████████████████████████████████████████████████████████████▍ | 5670/7135 [5:09:58<1:17:28, 3.17s/it]
{'loss': 0.9243, 'grad_norm': 4.40625, 'learning_rate': 5.168715385463188e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 425.21, 'epoch': 7.94}
79%|████████████████████████████████████████████████████████████▍ | 5670/7135 [5:09:58<1:17:28, 3.17s/it]
79%|████████████████████████████████████████████████████████████▍ | 5671/7135 [5:10:01<1:19:27, 3.26s/it]
79%|████████████████████████████████████████████████████████████▍ | 5672/7135 [5:10:05<1:20:28, 3.30s/it]
80%|████████████████████████████████████████████████████████████▍ | 5673/7135 [5:10:08<1:18:30, 3.22s/it]
80%|████████████████████████████████████████████████████████████▍ | 5674/7135 [5:10:11<1:14:58, 3.08s/it]
80%|████████████████████████████████████████████████████████████▍ | 5675/7135 [5:10:14<1:17:05, 3.17s/it]
80%|████████████████████████████████████████████████████████████▍ | 5676/7135 [5:10:17<1:16:22, 3.14s/it]
80%|████████████████████████████████████████████████████████████▍ | 5677/7135 [5:10:20<1:14:39, 3.07s/it]
80%|████████████████████████████████████████████████████████████▍ | 5678/7135 [5:10:23<1:13:40, 3.03s/it]
80%|████████████████████████████████████████████████████████████▍ | 5679/7135 [5:10:26<1:14:02, 3.05s/it]
80%|████████████████████████████████████████████████████████████▌ | 5680/7135 [5:10:29<1:14:42, 3.08s/it]
{'loss': 0.7167, 'grad_norm': 6.625, 'learning_rate': 5.100935461392578e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 406.79, 'epoch': 7.96}
80%|████████████████████████████████████████████████████████████▌ | 5680/7135 [5:10:29<1:14:42, 3.08s/it]
80%|████████████████████████████████████████████████████████████▌ | 5681/7135 [5:10:33<1:17:13, 3.19s/it]
80%|████████████████████████████████████████████████████████████▌ | 5682/7135 [5:10:36<1:15:49, 3.13s/it]
80%|████████████████████████████████████████████████████████████▌ | 5683/7135 [5:10:39<1:16:12, 3.15s/it]
80%|████████████████████████████████████████████████████████████▌ | 5684/7135 [5:10:42<1:17:50, 3.22s/it]
80%|████████████████████████████████████████████████████████████▌ | 5685/7135 [5:10:45<1:15:40, 3.13s/it]
80%|████████████████████████████████████████████████████████████▌ | 5686/7135 [5:10:48<1:15:02, 3.11s/it]
80%|████████████████████████████████████████████████████████████▌ | 5687/7135 [5:10:51<1:12:16, 3.00s/it]
80%|████████████████████████████████████████████████████████████▌ | 5688/7135 [5:10:54<1:11:23, 2.96s/it]
80%|████████████████████████████████████████████████████████████▌ | 5689/7135 [5:10:57<1:12:55, 3.03s/it]
80%|████████████████████████████████████████████████████████████▌ | 5690/7135 [5:11:00<1:13:26, 3.05s/it]
{'loss': 0.7563, 'grad_norm': 4.03125, 'learning_rate': 5.033552366393318e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.28, 'epoch': 7.97}
80%|████████████████████████████████████████████████████████████▌ | 5690/7135 [5:11:00<1:13:26, 3.05s/it]
80%|████████████████████████████████████████████████████████████▌ | 5691/7135 [5:11:03<1:13:44, 3.06s/it]
80%|████████████████████████████████████████████████████████████▋ | 5692/7135 [5:11:06<1:12:53, 3.03s/it]
80%|████████████████████████████████████████████████████████████▋ | 5693/7135 [5:11:09<1:12:41, 3.02s/it]
80%|████████████████████████████████████████████████████████████▋ | 5694/7135 [5:11:12<1:13:01, 3.04s/it]
80%|████████████████████████████████████████████████████████████▋ | 5695/7135 [5:11:15<1:13:25, 3.06s/it]
80%|████████████████████████████████████████████████████████████▋ | 5696/7135 [5:11:19<1:15:11, 3.14s/it]
80%|████████████████████████████████████████████████████████████▋ | 5697/7135 [5:11:22<1:16:43, 3.20s/it]
80%|████████████████████████████████████████████████████████████▋ | 5698/7135 [5:11:25<1:13:53, 3.09s/it]
80%|████████████████████████████████████████████████████████████▋ | 5699/7135 [5:11:28<1:15:13, 3.14s/it]
80%|████████████████████████████████████████████████████████████▋ | 5700/7135 [5:11:31<1:17:38, 3.25s/it]
{'loss': 0.7837, 'grad_norm': 4.71875, 'learning_rate': 4.966567444225615e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 307.09, 'epoch': 7.98}
80%|████████████████████████████████████████████████████████████▋ | 5700/7135 [5:11:32<1:17:38, 3.25s/it]
80%|████████████████████████████████████████████████████████████▋ | 5701/7135 [5:11:35<1:16:39, 3.21s/it]
80%|████████████████████████████████████████████████████████████▋ | 5702/7135 [5:11:38<1:16:15, 3.19s/it]
80%|████████████████████████████████████████████████████████████▋ | 5703/7135 [5:11:41<1:19:38, 3.34s/it]
80%|████████████████████████████████████████████████████████████▊ | 5704/7135 [5:11:45<1:22:08, 3.44s/it]
80%|████████████████████████████████████████████████████████████▊ | 5705/7135 [5:11:48<1:21:02, 3.40s/it]
80%|████████████████████████████████████████████████████████████▊ | 5706/7135 [5:11:51<1:17:11, 3.24s/it]
80%|████████████████████████████████████████████████████████████▊ | 5707/7135 [5:11:54<1:14:13, 3.12s/it]
80%|████████████████████████████████████████████████████████████▊ | 5708/7135 [5:11:57<1:14:53, 3.15s/it]
80%|████████████████████████████████████████████████████████████▊ | 5709/7135 [5:12:01<1:17:28, 3.26s/it]
80%|████████████████████████████████████████████████████████████▊ | 5710/7135 [5:12:05<1:23:23, 3.51s/it]
{'loss': 0.6566, 'grad_norm': 4.625, 'learning_rate': 4.899982030709268e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 276.36, 'epoch': 8.0}
80%|████████████████████████████████████████████████████████████▊ | 5710/7135 [5:12:05<1:23:23, 3.51s/it]
80%|████████████████████████████████████████████████████████████▊ | 5711/7135 [5:12:08<1:21:06, 3.42s/it]
80%|████████████████████████████████████████████████████████████▊ | 5712/7135 [5:12:10<1:07:09, 2.83s/it][2025-12-23 19:36:15,798] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-5712
80%|████████████████████████████████████████████████████████████▊ | 5713/7135 [5:13:12<8:10:46, 20.71s/it]
80%|████████████████████████████████████████████████████████████▊ | 5714/7135 [5:13:15<6:04:53, 15.41s/it]
80%|████████████████████████████████████████████████████████████▊ | 5715/7135 [5:13:18<4:39:01, 11.79s/it]
80%|████████████████████████████████████████████████████████████▉ | 5716/7135 [5:13:21<3:35:53, 9.13s/it]
80%|████████████████████████████████████████████████████████████▉ | 5717/7135 [5:13:25<2:54:14, 7.37s/it]
80%|████████████████████████████████████████████████████████████▉ | 5718/7135 [5:13:27<2:21:59, 6.01s/it]
80%|████████████████████████████████████████████████████████████▉ | 5719/7135 [5:13:30<2:00:00, 5.08s/it]
80%|████████████████████████████████████████████████████████████▉ | 5720/7135 [5:13:33<1:44:32, 4.43s/it]
{'loss': 0.7456, 'grad_norm': 5.40625, 'learning_rate': 4.833797453697045e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.96, 'epoch': 8.01}
80%|████████████████████████████████████████████████████████████▉ | 5720/7135 [5:13:33<1:44:32, 4.43s/it]
80%|████████████████████████████████████████████████████████████▉ | 5721/7135 [5:13:36<1:34:29, 4.01s/it]
80%|████████████████████████████████████████████████████████████▉ | 5722/7135 [5:13:40<1:29:02, 3.78s/it]
80%|████████████████████████████████████████████████████████████▉ | 5723/7135 [5:13:43<1:23:10, 3.53s/it]
80%|████████████████████████████████████████████████████████████▉ | 5724/7135 [5:13:45<1:18:52, 3.35s/it]
80%|████████████████████████████████████████████████████████████▉ | 5725/7135 [5:13:49<1:19:06, 3.37s/it]
80%|████████████████████████████████████████████████████████████▉ | 5726/7135 [5:13:53<1:24:12, 3.59s/it]
80%|█████████████████████████████████████████████████████████████ | 5727/7135 [5:13:56<1:21:28, 3.47s/it]
80%|█████████████████████████████████████████████████████████████ | 5728/7135 [5:14:00<1:20:26, 3.43s/it]
80%|█████████████████████████████████████████████████████████████ | 5729/7135 [5:14:03<1:23:20, 3.56s/it]
80%|█████████████████████████████████████████████████████████████ | 5730/7135 [5:14:06<1:18:41, 3.36s/it]
{'loss': 0.8197, 'grad_norm': 4.46875, 'learning_rate': 4.768015033048179e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 483.06, 'epoch': 8.03}
80%|█████████████████████████████████████████████████████████████ | 5730/7135 [5:14:06<1:18:41, 3.36s/it]
80%|█████████████████████████████████████████████████████████████ | 5731/7135 [5:14:10<1:18:36, 3.36s/it]
80%|█████████████████████████████████████████████████████████████ | 5732/7135 [5:14:14<1:22:13, 3.52s/it]
80%|█████████████████████████████████████████████████████████████ | 5733/7135 [5:14:17<1:18:47, 3.37s/it]
80%|█████████████████████████████████████████████████████████████ | 5734/7135 [5:14:20<1:16:24, 3.27s/it]
80%|█████████████████████████████████████████████████████████████ | 5735/7135 [5:14:23<1:16:24, 3.27s/it]
80%|█████████████████████████████████████████████████████████████ | 5736/7135 [5:14:26<1:17:37, 3.33s/it]
80%|█████████████████████████████████████████████████████████████ | 5737/7135 [5:14:30<1:16:58, 3.30s/it]
80%|█████████████████████████████████████████████████████████████ | 5738/7135 [5:14:33<1:16:46, 3.30s/it]
80%|█████████████████████████████████████████████████████████████▏ | 5739/7135 [5:14:36<1:15:15, 3.23s/it]
80%|█████████████████████████████████████████████████████████████▏ | 5740/7135 [5:14:39<1:15:08, 3.23s/it]
{'loss': 0.703, 'grad_norm': 5.84375, 'learning_rate': 4.70263608060208e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.17, 'epoch': 8.04}
80%|█████████████████████████████████████████████████████████████▏ | 5740/7135 [5:14:39<1:15:08, 3.23s/it]
80%|█████████████████████████████████████████████████████████████▏ | 5741/7135 [5:14:43<1:18:22, 3.37s/it]
80%|█████████████████████████████████████████████████████████████▏ | 5742/7135 [5:14:46<1:18:19, 3.37s/it]
80%|█████████████████████████████████████████████████████████████▏ | 5743/7135 [5:14:49<1:14:35, 3.21s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5744/7135 [5:14:54<1:24:31, 3.65s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5745/7135 [5:14:57<1:23:28, 3.60s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5746/7135 [5:15:00<1:20:45, 3.49s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5747/7135 [5:15:04<1:18:10, 3.38s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5748/7135 [5:15:07<1:18:26, 3.39s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5749/7135 [5:15:10<1:15:44, 3.28s/it]
81%|█████████████████████████████████████████████████████████████▏ | 5750/7135 [5:15:13<1:13:37, 3.19s/it]
{'loss': 0.7546, 'grad_norm': 4.65625, 'learning_rate': 4.637661900152143e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 526.38, 'epoch': 8.05}
81%|█████████████████████████████████████████████████████████████▏ | 5750/7135 [5:15:13<1:13:37, 3.19s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5751/7135 [5:15:16<1:10:47, 3.07s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5752/7135 [5:15:19<1:10:30, 3.06s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5753/7135 [5:15:22<1:13:05, 3.17s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5754/7135 [5:15:25<1:12:28, 3.15s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5755/7135 [5:15:28<1:12:23, 3.15s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5756/7135 [5:15:31<1:10:15, 3.06s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5757/7135 [5:15:35<1:13:12, 3.19s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5758/7135 [5:15:38<1:11:01, 3.09s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5759/7135 [5:15:41<1:08:53, 3.00s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5760/7135 [5:15:44<1:11:16, 3.11s/it]
{'loss': 0.7656, 'grad_norm': 6.5625, 'learning_rate': 4.573093787419758e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.88, 'epoch': 8.07}
81%|█████████████████████████████████████████████████████████████▎ | 5760/7135 [5:15:44<1:11:16, 3.11s/it]
81%|█████████████████████████████████████████████████████████████▎ | 5761/7135 [5:15:47<1:09:52, 3.05s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5762/7135 [5:15:50<1:10:24, 3.08s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5763/7135 [5:15:54<1:18:40, 3.44s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5764/7135 [5:15:57<1:14:59, 3.28s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5765/7135 [5:16:00<1:13:49, 3.23s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5766/7135 [5:16:04<1:17:13, 3.38s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5767/7135 [5:16:07<1:14:25, 3.26s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5768/7135 [5:16:10<1:11:33, 3.14s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5769/7135 [5:16:13<1:11:06, 3.12s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5770/7135 [5:16:16<1:11:59, 3.16s/it]
{'loss': 0.768, 'grad_norm': 4.0625, 'learning_rate': 4.508933030028492e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 332.38, 'epoch': 8.08}
81%|█████████████████████████████████████████████████████████████▍ | 5770/7135 [5:16:16<1:11:59, 3.16s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5771/7135 [5:16:19<1:13:05, 3.22s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5772/7135 [5:16:23<1:16:57, 3.39s/it]
81%|█████████████████████████████████████████████████████████████▍ | 5773/7135 [5:16:26<1:14:54, 3.30s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5774/7135 [5:16:30<1:18:05, 3.44s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5775/7135 [5:16:33<1:15:13, 3.32s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5776/7135 [5:16:37<1:20:15, 3.54s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5777/7135 [5:16:40<1:17:49, 3.44s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5778/7135 [5:16:43<1:13:33, 3.25s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5779/7135 [5:16:46<1:13:28, 3.25s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5780/7135 [5:16:49<1:11:25, 3.16s/it]
{'loss': 0.7265, 'grad_norm': 4.8125, 'learning_rate': 4.4451809074783747e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 500.22, 'epoch': 8.1}
81%|█████████████████████████████████████████████████████████████▌ | 5780/7135 [5:16:49<1:11:25, 3.16s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5781/7135 [5:16:53<1:15:36, 3.35s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5782/7135 [5:16:57<1:15:10, 3.33s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5783/7135 [5:17:00<1:14:19, 3.30s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5784/7135 [5:17:03<1:14:02, 3.29s/it]
81%|█████████████████████████████████████████████████████████████▌ | 5785/7135 [5:17:06<1:14:51, 3.33s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5786/7135 [5:17:10<1:13:29, 3.27s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5787/7135 [5:17:13<1:15:04, 3.34s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5788/7135 [5:17:16<1:10:48, 3.15s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5789/7135 [5:17:19<1:09:43, 3.11s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5790/7135 [5:17:22<1:12:51, 3.25s/it]
{'loss': 0.7172, 'grad_norm': 4.25, 'learning_rate': 4.3818386911203994e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.78, 'epoch': 8.11}
81%|█████████████████████████████████████████████████████████████▋ | 5790/7135 [5:17:22<1:12:51, 3.25s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5791/7135 [5:17:25<1:10:21, 3.14s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5792/7135 [5:17:28<1:10:31, 3.15s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5793/7135 [5:17:31<1:07:46, 3.03s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5794/7135 [5:17:34<1:07:43, 3.03s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5795/7135 [5:17:38<1:11:01, 3.18s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5796/7135 [5:17:41<1:09:03, 3.09s/it]
81%|█████████████████████████████████████████████████████████████▋ | 5797/7135 [5:17:44<1:08:55, 3.09s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5798/7135 [5:17:47<1:09:56, 3.14s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5799/7135 [5:17:50<1:09:41, 3.13s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5800/7135 [5:17:53<1:09:39, 3.13s/it]
{'loss': 0.7705, 'grad_norm': 5.96875, 'learning_rate': 4.3189076441311846e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.58, 'epoch': 8.12}
81%|█████████████████████████████████████████████████████████████▊ | 5800/7135 [5:17:53<1:09:39, 3.13s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5801/7135 [5:17:57<1:12:54, 3.28s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5802/7135 [5:18:00<1:10:23, 3.17s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5803/7135 [5:18:03<1:09:42, 3.14s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5804/7135 [5:18:06<1:08:47, 3.10s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5805/7135 [5:18:09<1:08:34, 3.09s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5806/7135 [5:18:12<1:07:27, 3.05s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5807/7135 [5:18:15<1:07:58, 3.07s/it]
81%|█████████████████████████████████████████████████████████████▊ | 5808/7135 [5:18:18<1:08:59, 3.12s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5809/7135 [5:18:21<1:09:21, 3.14s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5810/7135 [5:18:25<1:09:45, 3.16s/it]
{'loss': 0.7794, 'grad_norm': 5.28125, 'learning_rate': 4.2563890214877613e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.86, 'epoch': 8.14}
81%|█████████████████████████████████████████████████████████████▉ | 5810/7135 [5:18:25<1:09:45, 3.16s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5811/7135 [5:18:28<1:14:18, 3.37s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5812/7135 [5:18:32<1:16:00, 3.45s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5813/7135 [5:18:35<1:11:47, 3.26s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5814/7135 [5:18:38<1:10:12, 3.19s/it]
81%|█████████████████████████████████████████████████████████████▉ | 5815/7135 [5:18:41<1:09:28, 3.16s/it]
82%|█████████████████████████████████████████████████████████████▉ | 5816/7135 [5:18:45<1:15:36, 3.44s/it]
82%|█████████████████████████████████████████████████████████████▉ | 5817/7135 [5:18:48<1:13:44, 3.36s/it]
82%|█████████████████████████████████████████████████████████████▉ | 5818/7135 [5:18:51<1:12:10, 3.29s/it]
82%|█████████████████████████████████████████████████████████████▉ | 5819/7135 [5:18:54<1:08:09, 3.11s/it]
82%|█████████████████████████████████████████████████████████████▉ | 5820/7135 [5:18:58<1:10:44, 3.23s/it]
{'loss': 0.7105, 'grad_norm': 3.75, 'learning_rate': 4.1942840699425503e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.3, 'epoch': 8.15}
82%|█████████████████████████████████████████████████████████████▉ | 5820/7135 [5:18:58<1:10:44, 3.23s/it]
82%|██████████████████████████████████████████████████████████████ | 5821/7135 [5:19:01<1:08:58, 3.15s/it]
82%|██████████████████████████████████████████████████████████████ | 5822/7135 [5:19:03<1:07:04, 3.07s/it]
82%|██████████████████████████████████████████████████████████████ | 5823/7135 [5:19:06<1:06:30, 3.04s/it]
82%|██████████████████████████████████████████████████████████████ | 5824/7135 [5:19:09<1:06:05, 3.02s/it]
82%|██████████████████████████████████████████████████████████████ | 5825/7135 [5:19:13<1:09:08, 3.17s/it]
82%|██████████████████████████████████████████████████████████████ | 5826/7135 [5:19:16<1:08:10, 3.13s/it]
82%|██████████████████████████████████████████████████████████████ | 5827/7135 [5:19:19<1:05:50, 3.02s/it]
82%|██████████████████████████████████████████████████████████████ | 5828/7135 [5:19:22<1:05:30, 3.01s/it]
82%|██████████████████████████████████████████████████████████████ | 5829/7135 [5:19:25<1:09:26, 3.19s/it]
82%|██████████████████████████████████████████████████████████████ | 5830/7135 [5:19:28<1:08:29, 3.15s/it]
{'loss': 0.6958, 'grad_norm': 5.9375, 'learning_rate': 4.1325940279985097e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 338.44, 'epoch': 8.17}
82%|██████████████████████████████████████████████████████████████ | 5830/7135 [5:19:28<1:08:29, 3.15s/it]
82%|██████████████████████████████████████████████████████████████ | 5831/7135 [5:19:32<1:08:35, 3.16s/it]
82%|██████████████████████████████████████████████████████████████ | 5832/7135 [5:19:35<1:09:25, 3.20s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5833/7135 [5:19:38<1:11:25, 3.29s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5834/7135 [5:19:42<1:10:45, 3.26s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5835/7135 [5:19:44<1:06:53, 3.09s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5836/7135 [5:19:47<1:07:51, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5837/7135 [5:19:50<1:07:08, 3.10s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5838/7135 [5:19:54<1:10:43, 3.27s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5839/7135 [5:19:57<1:07:42, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5840/7135 [5:20:00<1:07:02, 3.11s/it]
{'loss': 0.7639, 'grad_norm': 4.90625, 'learning_rate': 4.071320125884426e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 436.37, 'epoch': 8.18}
82%|██████████████████████████████████████████████████████████████▏ | 5840/7135 [5:20:00<1:07:02, 3.11s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5841/7135 [5:20:03<1:07:31, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5842/7135 [5:20:07<1:12:12, 3.35s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5843/7135 [5:20:10<1:11:01, 3.30s/it]
82%|██████████████████████████████████████████████████████████████▏ | 5844/7135 [5:20:13<1:09:18, 3.22s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5845/7135 [5:20:17<1:14:04, 3.44s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5846/7135 [5:20:20<1:10:45, 3.29s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5847/7135 [5:20:23<1:10:11, 3.27s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5848/7135 [5:20:26<1:07:11, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5849/7135 [5:20:30<1:08:21, 3.19s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5850/7135 [5:20:33<1:07:52, 3.17s/it]
{'loss': 0.8066, 'grad_norm': 5.15625, 'learning_rate': 4.01046358553038e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 436.44, 'epoch': 8.19}
82%|██████████████████████████████████████████████████████████████▎ | 5850/7135 [5:20:33<1:07:52, 3.17s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5851/7135 [5:20:35<1:05:02, 3.04s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5852/7135 [5:20:38<1:04:29, 3.02s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5853/7135 [5:20:42<1:06:00, 3.09s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5854/7135 [5:20:45<1:05:01, 3.05s/it]
82%|██████████████████████████████████████████████████████████████▎ | 5855/7135 [5:20:50<1:17:11, 3.62s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5856/7135 [5:20:52<1:11:16, 3.34s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5857/7135 [5:20:55<1:10:39, 3.32s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5858/7135 [5:20:59<1:09:26, 3.26s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5859/7135 [5:21:02<1:13:11, 3.44s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5860/7135 [5:21:06<1:14:50, 3.52s/it]
{'loss': 0.765, 'grad_norm': 5.46875, 'learning_rate': 3.9500256205434045e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.35, 'epoch': 8.21}
82%|██████████████████████████████████████████████████████████████▍ | 5860/7135 [5:21:06<1:14:50, 3.52s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5861/7135 [5:21:09<1:11:32, 3.37s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5862/7135 [5:21:12<1:10:20, 3.32s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5863/7135 [5:21:15<1:08:52, 3.25s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5864/7135 [5:21:19<1:08:29, 3.23s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5865/7135 [5:21:21<1:05:18, 3.09s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5866/7135 [5:21:24<1:04:49, 3.06s/it]
82%|██████████████████████████████████████████████████████████████▍ | 5867/7135 [5:21:28<1:05:01, 3.08s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5868/7135 [5:21:31<1:04:32, 3.06s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5869/7135 [5:21:34<1:06:33, 3.15s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5870/7135 [5:21:38<1:11:01, 3.37s/it]
{'loss': 0.805, 'grad_norm': 5.96875, 'learning_rate': 3.8900074361832436e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 301.35, 'epoch': 8.22}
82%|██████████████████████████████████████████████████████████████▌ | 5870/7135 [5:21:38<1:11:01, 3.37s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5871/7135 [5:21:41<1:09:46, 3.31s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5872/7135 [5:21:44<1:09:01, 3.28s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5873/7135 [5:21:47<1:07:53, 3.23s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5874/7135 [5:21:50<1:07:40, 3.22s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5875/7135 [5:21:53<1:05:49, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5876/7135 [5:21:56<1:05:21, 3.12s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5877/7135 [5:22:00<1:05:40, 3.13s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5878/7135 [5:22:03<1:05:26, 3.12s/it]
82%|██████████████████████████████████████████████████████████████▌ | 5879/7135 [5:22:06<1:08:55, 3.29s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5880/7135 [5:22:10<1:08:34, 3.28s/it]
{'loss': 0.7101, 'grad_norm': 5.09375, 'learning_rate': 3.83041022933833e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.57, 'epoch': 8.24}
82%|██████████████████████████████████████████████████████████████▋ | 5880/7135 [5:22:10<1:08:34, 3.28s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5881/7135 [5:22:13<1:07:11, 3.21s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5882/7135 [5:22:16<1:07:56, 3.25s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5883/7135 [5:22:19<1:05:03, 3.12s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5884/7135 [5:22:22<1:03:45, 3.06s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5885/7135 [5:22:25<1:03:19, 3.04s/it]
82%|██████████████████████████████████████████████████████████████▋ | 5886/7135 [5:22:28<1:03:41, 3.06s/it]
83%|██████████████████████████████████████████████████████████████▋ | 5887/7135 [5:22:31<1:02:41, 3.01s/it]
83%|██████████████████████████████████████████████████████████████▋ | 5888/7135 [5:22:34<1:02:22, 3.00s/it]
83%|██████████████████████████████████████████████████████████████▋ | 5889/7135 [5:22:37<1:06:38, 3.21s/it]
83%|██████████████████████████████████████████████████████████████▋ | 5890/7135 [5:22:40<1:03:42, 3.07s/it]
{'loss': 0.7548, 'grad_norm': 6.15625, 'learning_rate': 3.7712351885019485e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.5, 'epoch': 8.25}
83%|██████████████████████████████████████████████████████████████▋ | 5890/7135 [5:22:40<1:03:42, 3.07s/it]
83%|██████████████████████████████████████████████████████████████▋ | 5891/7135 [5:22:44<1:06:38, 3.21s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5892/7135 [5:22:47<1:06:33, 3.21s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5893/7135 [5:22:50<1:05:19, 3.16s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5894/7135 [5:22:54<1:08:47, 3.33s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5895/7135 [5:22:57<1:08:03, 3.29s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5896/7135 [5:23:00<1:06:03, 3.20s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5897/7135 [5:23:03<1:06:51, 3.24s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5898/7135 [5:23:06<1:05:13, 3.16s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5899/7135 [5:23:10<1:05:41, 3.19s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5900/7135 [5:23:12<1:04:07, 3.12s/it]
{'loss': 0.8329, 'grad_norm': 5.0625, 'learning_rate': 3.712483493748481e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.88, 'epoch': 8.26}
83%|██████████████████████████████████████████████████████████████▊ | 5900/7135 [5:23:12<1:04:07, 3.12s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5901/7135 [5:23:15<1:02:21, 3.03s/it]
83%|██████████████████████████████████████████████████████████████▊ | 5902/7135 [5:23:18<1:02:39, 3.05s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5903/7135 [5:23:21<1:01:56, 3.02s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5904/7135 [5:23:24<1:02:30, 3.05s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5905/7135 [5:23:28<1:05:21, 3.19s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5906/7135 [5:23:32<1:09:17, 3.38s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5907/7135 [5:23:36<1:11:26, 3.49s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5908/7135 [5:23:39<1:12:56, 3.57s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5909/7135 [5:23:43<1:14:35, 3.65s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5910/7135 [5:23:46<1:10:41, 3.46s/it]
{'loss': 0.7588, 'grad_norm': 6.46875, 'learning_rate': 3.654156316709909e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.62, 'epoch': 8.28}
83%|██████████████████████████████████████████████████████████████▉ | 5910/7135 [5:23:46<1:10:41, 3.46s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5911/7135 [5:23:49<1:09:02, 3.38s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5912/7135 [5:23:53<1:08:55, 3.38s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5913/7135 [5:23:56<1:07:31, 3.32s/it]
83%|██████████████████████████████████████████████████████████████▉ | 5914/7135 [5:23:59<1:05:17, 3.21s/it]
83%|███████████████████████████████████████████████████████████████ | 5915/7135 [5:24:03<1:08:07, 3.35s/it]
83%|███████████████████████████████████████████████████████████████ | 5916/7135 [5:24:06<1:07:02, 3.30s/it]
83%|███████████████████████████████████████████████████████████████ | 5917/7135 [5:24:09<1:04:01, 3.15s/it]
83%|███████████████████████████████████████████████████████████████ | 5918/7135 [5:24:11<1:02:10, 3.07s/it]
83%|███████████████████████████████████████████████████████████████ | 5919/7135 [5:24:14<1:01:47, 3.05s/it]
83%|███████████████████████████████████████████████████████████████ | 5920/7135 [5:24:17<1:01:32, 3.04s/it]
{'loss': 0.6712, 'grad_norm': 3.265625, 'learning_rate': 3.5962548205524526e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.01, 'epoch': 8.29}
83%|███████████████████████████████████████████████████████████████ | 5920/7135 [5:24:17<1:01:32, 3.04s/it]
83%|███████████████████████████████████████████████████████████████ | 5921/7135 [5:24:21<1:04:24, 3.18s/it]
83%|███████████████████████████████████████████████████████████████ | 5922/7135 [5:24:24<1:03:39, 3.15s/it]
83%|███████████████████████████████████████████████████████████████ | 5923/7135 [5:24:28<1:08:47, 3.41s/it]
83%|███████████████████████████████████████████████████████████████ | 5924/7135 [5:24:31<1:05:02, 3.22s/it]
83%|███████████████████████████████████████████████████████████████ | 5925/7135 [5:24:34<1:05:30, 3.25s/it]
83%|███████████████████████████████████████████████████████████████ | 5926/7135 [5:24:37<1:05:26, 3.25s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5927/7135 [5:24:41<1:05:30, 3.25s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5928/7135 [5:24:44<1:04:48, 3.22s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5929/7135 [5:24:47<1:04:16, 3.20s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5930/7135 [5:24:50<1:03:55, 3.18s/it]
{'loss': 0.9435, 'grad_norm': 5.15625, 'learning_rate': 3.538780159953348e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 458.92, 'epoch': 8.31}
83%|███████████████████████████████████████████████████████████████▏ | 5930/7135 [5:24:50<1:03:55, 3.18s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5931/7135 [5:24:53<1:03:26, 3.16s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5932/7135 [5:24:56<1:02:08, 3.10s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5933/7135 [5:24:59<1:01:19, 3.06s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5934/7135 [5:25:02<1:00:21, 3.02s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5935/7135 [5:25:05<1:02:50, 3.14s/it]
83%|███████████████████████████████████████████████████████████████▏ | 5936/7135 [5:25:08<1:01:13, 3.06s/it]
83%|████████████████████████████████████████████████████████████████▉ | 5937/7135 [5:25:11<59:46, 2.99s/it]
83%|████████████████████████████████████████████████████████████████▉ | 5938/7135 [5:25:14<58:23, 2.93s/it]
83%|████████████████████████████████████████████████████████████████▉ | 5939/7135 [5:25:17<58:12, 2.92s/it]
83%|████████████████████████████████████████████████████████████████▉ | 5940/7135 [5:25:20<57:22, 2.88s/it]
{'loss': 0.6386, 'grad_norm': 5.125, 'learning_rate': 3.4817334810778425e-07, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.27, 'epoch': 8.32}
83%|████████████████████████████████████████████████████████████████▉ | 5940/7135 [5:25:20<57:22, 2.88s/it]
83%|████████████████████████████████████████████████████████████████▉ | 5941/7135 [5:25:23<58:52, 2.96s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5942/7135 [5:25:26<1:01:03, 3.07s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5943/7135 [5:25:29<1:01:05, 3.08s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5944/7135 [5:25:33<1:04:11, 3.23s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5945/7135 [5:25:36<1:05:34, 3.31s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5946/7135 [5:25:40<1:05:10, 3.29s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5947/7135 [5:25:43<1:06:41, 3.37s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5948/7135 [5:25:47<1:08:27, 3.46s/it]
83%|███████████████████████████████████████████████████████████████▎ | 5949/7135 [5:25:50<1:06:16, 3.35s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5950/7135 [5:25:53<1:02:43, 3.18s/it]
{'loss': 0.6842, 'grad_norm': 5.09375, 'learning_rate': 3.4251159215563295e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 451.31, 'epoch': 8.33}
83%|███████████████████████████████████████████████████████████████▍ | 5950/7135 [5:25:53<1:02:43, 3.18s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5951/7135 [5:25:56<1:04:16, 3.26s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5952/7135 [5:25:59<1:02:12, 3.15s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5953/7135 [5:26:02<1:02:45, 3.19s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5954/7135 [5:26:06<1:04:20, 3.27s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5955/7135 [5:26:10<1:10:51, 3.60s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5956/7135 [5:26:13<1:08:49, 3.50s/it]
83%|███████████████████████████████████████████████████████████████▍ | 5957/7135 [5:26:16<1:03:56, 3.26s/it]
84%|███████████████████████████████████████████████████████████████▍ | 5958/7135 [5:26:19<1:03:37, 3.24s/it]
84%|███████████████████████████████████████████████████████████████▍ | 5959/7135 [5:26:22<1:02:30, 3.19s/it]
84%|███████████████████████████████████████████████████████████████▍ | 5960/7135 [5:26:25<1:02:06, 3.17s/it]
{'loss': 0.7876, 'grad_norm': 4.53125, 'learning_rate': 3.3689286104616525e-07, 'memory/max_active (GiB)': 38.59, 'memory/max_allocated (GiB)': 38.59, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 493.09, 'epoch': 8.35}
84%|███████████████████████████████████████████████████████████████▍ | 5960/7135 [5:26:25<1:02:06, 3.17s/it]
84%|███████████████████████████████████████████████████████████████▍ | 5961/7135 [5:26:29<1:05:18, 3.34s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5962/7135 [5:26:32<1:04:24, 3.29s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5963/7135 [5:26:36<1:06:28, 3.40s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5964/7135 [5:26:39<1:04:28, 3.30s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5965/7135 [5:26:42<1:02:00, 3.18s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5966/7135 [5:26:45<1:00:23, 3.10s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5967/7135 [5:26:48<1:01:03, 3.14s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5968/7135 [5:26:51<1:00:11, 3.09s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5969/7135 [5:26:55<1:05:05, 3.35s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5970/7135 [5:26:58<1:04:16, 3.31s/it]
{'loss': 0.9409, 'grad_norm': 4.9375, 'learning_rate': 3.313172668286624e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 392.09, 'epoch': 8.36}
84%|███████████████████████████████████████████████████████████████▌ | 5970/7135 [5:26:58<1:04:16, 3.31s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5971/7135 [5:27:02<1:05:10, 3.36s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5972/7135 [5:27:05<1:03:10, 3.26s/it]
84%|███████████████████████████████████████████████████████████████▌ | 5973/7135 [5:27:08<1:02:26, 3.22s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5974/7135 [5:27:11<1:00:40, 3.14s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5975/7135 [5:27:14<1:00:17, 3.12s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5976/7135 [5:27:17<1:02:45, 3.25s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5977/7135 [5:27:21<1:07:13, 3.48s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5978/7135 [5:27:25<1:04:32, 3.35s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5979/7135 [5:27:28<1:03:48, 3.31s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5980/7135 [5:27:31<1:05:56, 3.43s/it]
{'loss': 0.666, 'grad_norm': 3.875, 'learning_rate': 3.257849206921629e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.43, 'epoch': 8.38}
84%|███████████████████████████████████████████████████████████████▋ | 5980/7135 [5:27:31<1:05:56, 3.43s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5981/7135 [5:27:35<1:08:32, 3.56s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5982/7135 [5:27:38<1:06:13, 3.45s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5983/7135 [5:27:42<1:03:46, 3.32s/it]
84%|███████████████████████████████████████████████████████████████▋ | 5984/7135 [5:27:44<1:01:02, 3.18s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5985/7135 [5:27:47<59:26, 3.10s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5986/7135 [5:27:50<59:05, 3.09s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5987/7135 [5:27:53<58:58, 3.08s/it]
84%|███████████████████████████████████████████████████████████████▊ | 5988/7135 [5:27:57<1:00:44, 3.18s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5989/7135 [5:28:00<59:30, 3.12s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5990/7135 [5:28:03<58:50, 3.08s/it]
{'loss': 0.6909, 'grad_norm': 6.125, 'learning_rate': 3.202959329632491e-07, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.45, 'epoch': 8.39}
84%|█████████████████████████████████████████████████████████████████▍ | 5990/7135 [5:28:03<58:50, 3.08s/it]
84%|█████████████████████████████████████████████████████████████████▍ | 5991/7135 [5:28:06<57:58, 3.04s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5992/7135 [5:28:09<57:19, 3.01s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5993/7135 [5:28:12<58:51, 3.09s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5994/7135 [5:28:15<58:18, 3.07s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5995/7135 [5:28:18<58:16, 3.07s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5996/7135 [5:28:21<57:09, 3.01s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5997/7135 [5:28:24<57:47, 3.05s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5998/7135 [5:28:27<57:23, 3.03s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 5999/7135 [5:28:30<57:41, 3.05s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 6000/7135 [5:28:33<58:39, 3.10s/it]
{'loss': 0.718, 'grad_norm': 5.03125, 'learning_rate': 3.1485041310384603e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.43, 'epoch': 8.4}
84%|█████████████████████████████████████████████████████████████████▌ | 6000/7135 [5:28:33<58:39, 3.10s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 6001/7135 [5:28:36<57:39, 3.05s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 6002/7135 [5:28:40<59:19, 3.14s/it]
84%|█████████████████████████████████████████████████████████████████▌ | 6003/7135 [5:28:43<59:38, 3.16s/it]
84%|███████████████████████████████████████████████████████████████▉ | 6004/7135 [5:28:46<1:01:58, 3.29s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6005/7135 [5:28:49<59:59, 3.19s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6006/7135 [5:28:52<58:49, 3.13s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6007/7135 [5:28:55<56:06, 2.98s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6008/7135 [5:28:59<59:05, 3.15s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6009/7135 [5:29:01<57:47, 3.08s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6010/7135 [5:29:05<57:59, 3.09s/it]
{'loss': 0.6653, 'grad_norm': 5.5, 'learning_rate': 3.09448469709038e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.07, 'epoch': 8.42}
84%|█████████████████████████████████████████████████████████████████▋ | 6010/7135 [5:29:05<57:59, 3.09s/it]
84%|████████████████████████████████████████████████████████████████ | 6011/7135 [5:29:08<1:00:46, 3.24s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6012/7135 [5:29:11<58:09, 3.11s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6013/7135 [5:29:14<58:02, 3.10s/it]
84%|█████████████████████████████████████████████████████████████████▋ | 6014/7135 [5:29:17<58:25, 3.13s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6015/7135 [5:29:20<57:31, 3.08s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6016/7135 [5:29:23<56:17, 3.02s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6017/7135 [5:29:26<56:50, 3.05s/it]
84%|████████████████████████████████████████████████████████████████ | 6018/7135 [5:29:30<1:02:00, 3.33s/it]
84%|████████████████████████████████████████████████████████████████ | 6019/7135 [5:29:34<1:01:59, 3.33s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6020/7135 [5:29:36<59:38, 3.21s/it]
{'loss': 0.6201, 'grad_norm': 5.75, 'learning_rate': 3.040902105049021e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 475.38, 'epoch': 8.43}
84%|█████████████████████████████████████████████████████████████████▊ | 6020/7135 [5:29:37<59:38, 3.21s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6021/7135 [5:29:40<59:32, 3.21s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6022/7135 [5:29:43<1:02:04, 3.35s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6023/7135 [5:29:47<1:01:31, 3.32s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6024/7135 [5:29:49<58:03, 3.14s/it]
84%|█████████████████████████████████████████████████████████████████▊ | 6025/7135 [5:29:52<57:58, 3.13s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6026/7135 [5:29:56<1:00:49, 3.29s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6027/7135 [5:30:00<1:03:30, 3.44s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6028/7135 [5:30:03<1:03:25, 3.44s/it]
84%|████████████████████████████████████████████████████████████████▏ | 6029/7135 [5:30:07<1:02:46, 3.41s/it]
85%|█████████████████████████████████████████████████████████████████▉ | 6030/7135 [5:30:09<58:39, 3.19s/it]
{'loss': 0.6862, 'grad_norm': 5.5625, 'learning_rate': 2.9877574234636357e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 449.21, 'epoch': 8.45}
85%|█████████████████████████████████████████████████████████████████▉ | 6030/7135 [5:30:09<58:39, 3.19s/it]
85%|████████████████████████████████████████████████████████████████▏ | 6031/7135 [5:30:13<1:00:22, 3.28s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6032/7135 [5:30:16<1:00:41, 3.30s/it]
85%|█████████████████████████████████████████████████████████████████▉ | 6033/7135 [5:30:19<59:48, 3.26s/it]
85%|█████████████████████████████████████████████████████████████████▉ | 6034/7135 [5:30:22<57:42, 3.14s/it]
85%|█████████████████████████████████████████████████████████████████▉ | 6035/7135 [5:30:25<56:46, 3.10s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6036/7135 [5:30:29<1:02:40, 3.42s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6037/7135 [5:30:33<1:01:43, 3.37s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6038/7135 [5:30:36<1:00:17, 3.30s/it]
85%|██████████████████████████████████████████████████████████████████ | 6039/7135 [5:30:39<58:11, 3.19s/it]
85%|██████████████████████████████████████████████████████████████████ | 6040/7135 [5:30:42<59:39, 3.27s/it]
{'loss': 0.8014, 'grad_norm': 5.625, 'learning_rate': 2.9350517121505996e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.51, 'epoch': 8.46}
85%|██████████████████████████████████████████████████████████████████ | 6040/7135 [5:30:42<59:39, 3.27s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6041/7135 [5:30:46<1:01:27, 3.37s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6042/7135 [5:30:49<1:01:37, 3.38s/it]
85%|████████████████████████████████████████████████████████████████▎ | 6043/7135 [5:30:53<1:05:46, 3.61s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6044/7135 [5:30:57<1:04:24, 3.54s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6045/7135 [5:31:00<1:01:07, 3.36s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6046/7135 [5:31:04<1:08:32, 3.78s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6047/7135 [5:31:07<1:03:26, 3.50s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6048/7135 [5:31:11<1:04:20, 3.55s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6049/7135 [5:31:14<1:03:34, 3.51s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6050/7135 [5:31:18<1:02:53, 3.48s/it]
{'loss': 0.8557, 'grad_norm': 3.359375, 'learning_rate': 2.8827860221723097e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 630.1, 'epoch': 8.47}
85%|████████████████████████████████████████████████████████████████▍ | 6050/7135 [5:31:18<1:02:53, 3.48s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6051/7135 [5:31:21<1:02:19, 3.45s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6052/7135 [5:31:24<1:01:52, 3.43s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6053/7135 [5:31:28<1:00:24, 3.35s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6054/7135 [5:31:31<1:00:12, 3.34s/it]
85%|████████████████████████████████████████████████████████████████▍ | 6055/7135 [5:31:34<1:01:04, 3.39s/it]
85%|██████████████████████████████████████████████████████████████████▏ | 6056/7135 [5:31:38<59:41, 3.32s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6057/7135 [5:31:41<1:01:14, 3.41s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6058/7135 [5:31:44<1:00:18, 3.36s/it]
85%|██████████████████████████████████████████████████████████████████▏ | 6059/7135 [5:31:47<58:18, 3.25s/it]
85%|██████████████████████████████████████████████████████████████████▏ | 6060/7135 [5:31:51<57:48, 3.23s/it]
{'loss': 0.8274, 'grad_norm': 4.34375, 'learning_rate': 2.83096139581622e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.37, 'epoch': 8.49}
85%|██████████████████████████████████████████████████████████████████▏ | 6060/7135 [5:31:51<57:48, 3.23s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6061/7135 [5:31:53<55:01, 3.07s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6062/7135 [5:31:58<1:01:15, 3.43s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6063/7135 [5:32:01<1:00:15, 3.37s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6064/7135 [5:32:04<57:22, 3.21s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6065/7135 [5:32:07<55:39, 3.12s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6066/7135 [5:32:11<1:02:29, 3.51s/it]
85%|████████████████████████████████████████████████████████████████▌ | 6067/7135 [5:32:15<1:02:24, 3.51s/it]
85%|████████████████████████████████████████████████████████████████▋ | 6068/7135 [5:32:18<1:01:23, 3.45s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6069/7135 [5:32:21<59:10, 3.33s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6070/7135 [5:32:24<58:09, 3.28s/it]
{'loss': 0.9329, 'grad_norm': 5.90625, 'learning_rate': 2.7795788665740423e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.17, 'epoch': 8.5}
85%|██████████████████████████████████████████████████████████████████▎ | 6070/7135 [5:32:24<58:09, 3.28s/it]
85%|██████████████████████████████████████████████████████████████████▎ | 6071/7135 [5:32:27<56:59, 3.21s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6072/7135 [5:32:30<55:09, 3.11s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6073/7135 [5:32:34<59:23, 3.36s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6074/7135 [5:32:37<59:31, 3.37s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6075/7135 [5:32:40<57:12, 3.24s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6076/7135 [5:32:43<56:39, 3.21s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6077/7135 [5:32:47<59:47, 3.39s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6078/7135 [5:32:50<56:26, 3.20s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6079/7135 [5:32:53<55:01, 3.13s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6080/7135 [5:32:56<55:26, 3.15s/it]
{'loss': 0.7351, 'grad_norm': 5.78125, 'learning_rate': 2.7286394591211434e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.4, 'epoch': 8.52}
85%|██████████████████████████████████████████████████████████████████▍ | 6080/7135 [5:32:56<55:26, 3.15s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6081/7135 [5:32:59<54:54, 3.13s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6082/7135 [5:33:02<54:22, 3.10s/it]
85%|██████████████████████████████████████████████████████████████████▍ | 6083/7135 [5:33:06<57:43, 3.29s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6084/7135 [5:33:10<59:38, 3.40s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6085/7135 [5:33:13<57:50, 3.30s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6086/7135 [5:33:16<57:53, 3.31s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6087/7135 [5:33:19<56:01, 3.21s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6088/7135 [5:33:22<55:47, 3.20s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6089/7135 [5:33:25<55:42, 3.20s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6090/7135 [5:33:29<56:43, 3.26s/it]
{'loss': 0.8279, 'grad_norm': 5.25, 'learning_rate': 2.6781441892961305e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 426.91, 'epoch': 8.53}
85%|██████████████████████████████████████████████████████████████████▌ | 6090/7135 [5:33:29<56:43, 3.26s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6091/7135 [5:33:32<53:59, 3.10s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6092/7135 [5:33:35<55:06, 3.17s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6093/7135 [5:33:38<57:10, 3.29s/it]
85%|██████████████████████████████████████████████████████████████████▌ | 6094/7135 [5:33:42<56:35, 3.26s/it]
85%|████████████████████████████████████████████████████████████████▉ | 6095/7135 [5:33:46<1:00:04, 3.47s/it]
85%|██████████████████████████████████████████████████████████████████▋ | 6096/7135 [5:33:49<58:01, 3.35s/it]
85%|██████████████████████████████████████████████████████████████████▋ | 6097/7135 [5:33:52<55:28, 3.21s/it]
85%|██████████████████████████████████████████████████████████████████▋ | 6098/7135 [5:33:54<54:09, 3.13s/it]
85%|██████████████████████████████████████████████████████████████████▋ | 6099/7135 [5:33:58<54:30, 3.16s/it]
85%|██████████████████████████████████████████████████████████████████▋ | 6100/7135 [5:34:01<54:47, 3.18s/it]
{'loss': 0.8052, 'grad_norm': 5.0, 'learning_rate': 2.628094064080558e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 399.03, 'epoch': 8.54}
85%|██████████████████████████████████████████████████████████████████▋ | 6100/7135 [5:34:01<54:47, 3.18s/it]
86%|██████████████████████████████████████████████████████████████████▋ | 6101/7135 [5:34:04<52:13, 3.03s/it]
86%|██████████████████████████████████████████████████████████████████▋ | 6102/7135 [5:34:07<52:27, 3.05s/it]
86%|██████████████████████████████████████████████████████████████████▋ | 6103/7135 [5:34:10<55:04, 3.20s/it]
86%|██████████████████████████████████████████████████████████████████▋ | 6104/7135 [5:34:13<54:22, 3.16s/it]
86%|██████████████████████████████████████████████████████████████████▋ | 6105/7135 [5:34:16<52:14, 3.04s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6106/7135 [5:34:19<53:00, 3.09s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6107/7135 [5:34:23<54:01, 3.15s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6108/7135 [5:34:26<53:20, 3.12s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6109/7135 [5:34:29<54:06, 3.16s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6110/7135 [5:34:32<52:25, 3.07s/it]
{'loss': 0.8109, 'grad_norm': 5.4375, 'learning_rate': 2.578490081578858e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.8, 'epoch': 8.56}
86%|██████████████████████████████████████████████████████████████████▊ | 6110/7135 [5:34:32<52:25, 3.07s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6111/7135 [5:34:35<51:19, 3.01s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6112/7135 [5:34:38<51:15, 3.01s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6113/7135 [5:34:40<50:20, 2.96s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6114/7135 [5:34:44<53:37, 3.15s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6115/7135 [5:34:47<53:36, 3.15s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6116/7135 [5:34:50<51:30, 3.03s/it]
86%|██████████████████████████████████████████████████████████████████▊ | 6117/7135 [5:34:53<50:00, 2.95s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6118/7135 [5:34:56<51:19, 3.03s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6119/7135 [5:34:59<50:14, 2.97s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6120/7135 [5:35:02<51:08, 3.02s/it]
{'loss': 0.6315, 'grad_norm': 5.34375, 'learning_rate': 2.529333230998465e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.72, 'epoch': 8.57}
86%|██████████████████████████████████████████████████████████████████▉ | 6120/7135 [5:35:02<51:08, 3.02s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6121/7135 [5:35:05<53:00, 3.14s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6122/7135 [5:35:09<54:40, 3.24s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6123/7135 [5:35:12<56:03, 3.32s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6124/7135 [5:35:15<54:10, 3.21s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6125/7135 [5:35:18<53:03, 3.15s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6126/7135 [5:35:21<52:11, 3.10s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6127/7135 [5:35:24<50:36, 3.01s/it]
86%|██████████████████████████████████████████████████████████████████▉ | 6128/7135 [5:35:27<49:39, 2.96s/it]
86%|███████████████████████████████████████████████████████████████████ | 6129/7135 [5:35:30<49:46, 2.97s/it]
86%|███████████████████████████████████████████████████████████████████ | 6130/7135 [5:35:33<49:28, 2.95s/it]
{'loss': 0.7128, 'grad_norm': 4.5625, 'learning_rate': 2.480624492630049e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.79, 'epoch': 8.59}
86%|███████████████████████████████████████████████████████████████████ | 6130/7135 [5:35:33<49:28, 2.95s/it]
86%|███████████████████████████████████████████████████████████████████ | 6131/7135 [5:35:36<52:05, 3.11s/it]
86%|███████████████████████████████████████████████████████████████████ | 6132/7135 [5:35:39<50:22, 3.01s/it]
86%|███████████████████████████████████████████████████████████████████ | 6133/7135 [5:35:43<52:56, 3.17s/it]
86%|███████████████████████████████████████████████████████████████████ | 6134/7135 [5:35:46<55:00, 3.30s/it]
86%|███████████████████████████████████████████████████████████████████ | 6135/7135 [5:35:49<51:46, 3.11s/it]
86%|███████████████████████████████████████████████████████████████████ | 6136/7135 [5:35:51<49:16, 2.96s/it]
86%|███████████████████████████████████████████████████████████████████ | 6137/7135 [5:35:55<50:25, 3.03s/it]
86%|███████████████████████████████████████████████████████████████████ | 6138/7135 [5:35:58<53:40, 3.23s/it]
86%|███████████████████████████████████████████████████████████████████ | 6139/7135 [5:36:01<51:39, 3.11s/it]
86%|███████████████████████████████████████████████████████████████████ | 6140/7135 [5:36:04<52:05, 3.14s/it]
{'loss': 0.6474, 'grad_norm': 5.21875, 'learning_rate': 2.4323648378279773e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.73, 'epoch': 8.6}
86%|███████████████████████████████████████████████████████████████████ | 6140/7135 [5:36:04<52:05, 3.14s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6141/7135 [5:36:07<51:37, 3.12s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6142/7135 [5:36:11<53:20, 3.22s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6143/7135 [5:36:14<51:58, 3.14s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6144/7135 [5:36:17<53:06, 3.21s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6145/7135 [5:36:20<51:26, 3.12s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6146/7135 [5:36:23<49:18, 2.99s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6147/7135 [5:36:26<50:00, 3.04s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6148/7135 [5:36:29<50:40, 3.08s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6149/7135 [5:36:32<49:18, 3.00s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6150/7135 [5:36:35<51:02, 3.11s/it]
{'loss': 0.71, 'grad_norm': 5.3125, 'learning_rate': 2.384555228990967e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.03, 'epoch': 8.61}
86%|███████████████████████████████████████████████████████████████████▏ | 6150/7135 [5:36:35<51:02, 3.11s/it]
86%|███████████████████████████████████████████████████████████████████▏ | 6151/7135 [5:36:38<50:44, 3.09s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6152/7135 [5:36:42<52:40, 3.22s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6153/7135 [5:36:45<53:34, 3.27s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6154/7135 [5:36:48<52:26, 3.21s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6155/7135 [5:36:52<52:13, 3.20s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6156/7135 [5:36:54<50:32, 3.10s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6157/7135 [5:36:58<52:29, 3.22s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6158/7135 [5:37:01<53:39, 3.30s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6159/7135 [5:37:05<53:20, 3.28s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6160/7135 [5:37:08<54:35, 3.36s/it]
{'loss': 0.7425, 'grad_norm': 4.65625, 'learning_rate': 2.3371966195428669e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 414.35, 'epoch': 8.63}
86%|███████████████████████████████████████████████████████████████████▎ | 6160/7135 [5:37:08<54:35, 3.36s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6161/7135 [5:37:12<56:24, 3.48s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6162/7135 [5:37:15<56:04, 3.46s/it]
86%|███████████████████████████████████████████████████████████████████▎ | 6163/7135 [5:37:19<56:05, 3.46s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6164/7135 [5:37:22<54:00, 3.34s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6165/7135 [5:37:24<50:17, 3.11s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6166/7135 [5:37:28<51:04, 3.16s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6167/7135 [5:37:31<49:18, 3.06s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6168/7135 [5:37:33<47:22, 2.94s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6169/7135 [5:37:37<49:05, 3.05s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6170/7135 [5:37:40<48:43, 3.03s/it]
{'loss': 0.7577, 'grad_norm': 5.03125, 'learning_rate': 2.2902899539136436e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.99, 'epoch': 8.64}
86%|███████████████████████████████████████████████████████████████████▍ | 6170/7135 [5:37:40<48:43, 3.03s/it]
86%|███████████████████████████████████████████████████████████████████▍ | 6171/7135 [5:37:42<48:26, 3.01s/it]
87%|███████████████████████████████████████████████████████████████████▍ | 6172/7135 [5:37:45<46:33, 2.90s/it]
87%|███████████████████████████████████████████████████████████████████▍ | 6173/7135 [5:37:48<46:10, 2.88s/it]
87%|███████████████████████████████████████████████████████████████████▍ | 6174/7135 [5:37:51<44:39, 2.79s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6175/7135 [5:37:54<48:48, 3.05s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6176/7135 [5:37:57<49:02, 3.07s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6177/7135 [5:38:01<51:16, 3.21s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6178/7135 [5:38:04<51:43, 3.24s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6179/7135 [5:38:07<51:48, 3.25s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6180/7135 [5:38:11<52:11, 3.28s/it]
{'loss': 0.6624, 'grad_norm': 6.96875, 'learning_rate': 2.2438361675205661e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 339.23, 'epoch': 8.66}
87%|███████████████████████████████████████████████████████████████████▌ | 6180/7135 [5:38:11<52:11, 3.28s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6181/7135 [5:38:14<52:14, 3.29s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6182/7135 [5:38:18<53:29, 3.37s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6183/7135 [5:38:21<51:05, 3.22s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6184/7135 [5:38:23<49:32, 3.13s/it]
87%|███████████████████████████████████████████████████████████████████▌ | 6185/7135 [5:38:26<48:36, 3.07s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6186/7135 [5:38:30<48:57, 3.10s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6187/7135 [5:38:33<51:44, 3.27s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6188/7135 [5:38:36<50:42, 3.21s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6189/7135 [5:38:39<50:24, 3.20s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6190/7135 [5:38:42<48:32, 3.08s/it]
{'loss': 0.6396, 'grad_norm': 5.8125, 'learning_rate': 2.1978361867495441e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 366.63, 'epoch': 8.67}
87%|███████████████████████████████████████████████████████████████████▋ | 6190/7135 [5:38:42<48:32, 3.08s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6191/7135 [5:38:45<47:51, 3.04s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6192/7135 [5:38:48<48:14, 3.07s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6193/7135 [5:38:52<49:12, 3.13s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6194/7135 [5:38:55<49:59, 3.19s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6195/7135 [5:38:58<51:01, 3.26s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6196/7135 [5:39:01<49:50, 3.19s/it]
87%|███████████████████████████████████████████████████████████████████▋ | 6197/7135 [5:39:05<51:01, 3.26s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6198/7135 [5:39:08<49:40, 3.18s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6199/7135 [5:39:11<48:21, 3.10s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6200/7135 [5:39:14<47:59, 3.08s/it]
{'loss': 0.7117, 'grad_norm': 6.21875, 'learning_rate': 2.1522909289366372e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 368.58, 'epoch': 8.68}
87%|███████████████████████████████████████████████████████████████████▊ | 6200/7135 [5:39:14<47:59, 3.08s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6201/7135 [5:39:17<48:39, 3.13s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6202/7135 [5:39:20<49:03, 3.16s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6203/7135 [5:39:23<47:41, 3.07s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6204/7135 [5:39:26<48:54, 3.15s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6205/7135 [5:39:30<51:54, 3.35s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6206/7135 [5:39:34<51:44, 3.34s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6207/7135 [5:39:37<51:08, 3.31s/it]
87%|███████████████████████████████████████████████████████████████████▊ | 6208/7135 [5:39:40<48:52, 3.16s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6209/7135 [5:39:43<47:42, 3.09s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6210/7135 [5:39:45<46:32, 3.02s/it]
{'loss': 0.6526, 'grad_norm': 4.96875, 'learning_rate': 2.1072013023497956e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 428.43, 'epoch': 8.7}
87%|███████████████████████████████████████████████████████████████████▉ | 6210/7135 [5:39:45<46:32, 3.02s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6211/7135 [5:39:49<48:21, 3.14s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6212/7135 [5:39:52<49:26, 3.21s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6213/7135 [5:39:56<51:54, 3.38s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6214/7135 [5:39:59<49:25, 3.22s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6215/7135 [5:40:02<48:45, 3.18s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6216/7135 [5:40:05<47:14, 3.08s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6217/7135 [5:40:08<47:45, 3.12s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6218/7135 [5:40:11<48:13, 3.16s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6219/7135 [5:40:15<52:18, 3.43s/it]
87%|███████████████████████████████████████████████████████████████████▉ | 6220/7135 [5:40:19<54:15, 3.56s/it]
{'loss': 0.6927, 'grad_norm': 5.4375, 'learning_rate': 2.0625682061707147e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 287.89, 'epoch': 8.71}
87%|███████████████████████████████████████████████████████████████████▉ | 6220/7135 [5:40:19<54:15, 3.56s/it]
87%|████████████████████████████████████████████████████████████████████ | 6221/7135 [5:40:23<53:35, 3.52s/it]
87%|████████████████████████████████████████████████████████████████████ | 6222/7135 [5:40:26<54:03, 3.55s/it]
87%|████████████████████████████████████████████████████████████████████ | 6223/7135 [5:40:30<54:19, 3.57s/it]
87%|████████████████████████████████████████████████████████████████████ | 6224/7135 [5:40:33<51:08, 3.37s/it]
87%|████████████████████████████████████████████████████████████████████ | 6225/7135 [5:40:36<50:54, 3.36s/it]
87%|████████████████████████████████████████████████████████████████████ | 6226/7135 [5:40:39<49:39, 3.28s/it]
87%|████████████████████████████████████████████████████████████████████ | 6227/7135 [5:40:42<47:17, 3.12s/it]
87%|████████████████████████████████████████████████████████████████████ | 6228/7135 [5:40:46<49:48, 3.29s/it]
87%|████████████████████████████████████████████████████████████████████ | 6229/7135 [5:40:49<50:12, 3.33s/it]
87%|████████████████████████████████████████████████████████████████████ | 6230/7135 [5:40:52<50:09, 3.33s/it]
{'loss': 0.7053, 'grad_norm': 4.65625, 'learning_rate': 2.0183925304769148e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.04, 'epoch': 8.73}
87%|████████████████████████████████████████████████████████████████████ | 6230/7135 [5:40:52<50:09, 3.33s/it]
87%|████████████████████████████████████████████████████████████████████ | 6231/7135 [5:40:55<48:32, 3.22s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6232/7135 [5:40:58<48:30, 3.22s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6233/7135 [5:41:02<49:32, 3.30s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6234/7135 [5:41:05<49:31, 3.30s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6235/7135 [5:41:08<47:40, 3.18s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6236/7135 [5:41:11<46:28, 3.10s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6237/7135 [5:41:14<45:27, 3.04s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6238/7135 [5:41:17<45:27, 3.04s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6239/7135 [5:41:20<47:07, 3.16s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6240/7135 [5:41:24<49:02, 3.29s/it]
{'loss': 0.6838, 'grad_norm': 5.78125, 'learning_rate': 1.9746751562240068e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 287.86, 'epoch': 8.74}
87%|████████████████████████████████████████████████████████████████████▏ | 6240/7135 [5:41:24<49:02, 3.29s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6241/7135 [5:41:27<47:44, 3.20s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6242/7135 [5:41:30<47:35, 3.20s/it]
87%|████████████████████████████████████████████████████████████████████▏ | 6243/7135 [5:41:33<46:38, 3.14s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6244/7135 [5:41:36<46:00, 3.10s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6245/7135 [5:41:40<48:26, 3.27s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6246/7135 [5:41:43<48:01, 3.24s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6247/7135 [5:41:46<48:40, 3.29s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6248/7135 [5:41:50<49:24, 3.34s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6249/7135 [5:41:54<51:09, 3.46s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6250/7135 [5:41:57<49:07, 3.33s/it]
{'loss': 0.884, 'grad_norm': 5.0625, 'learning_rate': 1.931416955228088e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 397.58, 'epoch': 8.75}
88%|████████████████████████████████████████████████████████████████████▎ | 6250/7135 [5:41:57<49:07, 3.33s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6251/7135 [5:42:00<48:17, 3.28s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6252/7135 [5:42:03<48:08, 3.27s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6253/7135 [5:42:06<46:42, 3.18s/it]
88%|████████████████████████████████████████████████████████████████████▎ | 6254/7135 [5:42:09<46:09, 3.14s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6255/7135 [5:42:12<45:47, 3.12s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6256/7135 [5:42:15<44:55, 3.07s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6257/7135 [5:42:19<46:31, 3.18s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6258/7135 [5:42:22<45:36, 3.12s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6259/7135 [5:42:25<45:10, 3.09s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6260/7135 [5:42:29<48:54, 3.35s/it]
{'loss': 0.8175, 'grad_norm': 4.0625, 'learning_rate': 1.8886187901484e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 315.02, 'epoch': 8.77}
88%|████████████████████████████████████████████████████████████████████▍ | 6260/7135 [5:42:29<48:54, 3.35s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6261/7135 [5:42:32<47:13, 3.24s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6262/7135 [5:42:35<47:12, 3.24s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6263/7135 [5:42:38<46:03, 3.17s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6264/7135 [5:42:41<45:15, 3.12s/it]
88%|████████████████████████████████████████████████████████████████████▍ | 6265/7135 [5:42:44<45:44, 3.15s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6266/7135 [5:42:47<45:05, 3.11s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6267/7135 [5:42:50<45:51, 3.17s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6268/7135 [5:42:53<44:58, 3.11s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6269/7135 [5:42:56<43:55, 3.04s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6270/7135 [5:42:59<42:54, 2.98s/it]
{'loss': 0.711, 'grad_norm': 5.625, 'learning_rate': 1.8462815144700914e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 422.71, 'epoch': 8.78}
88%|████████████████████████████████████████████████████████████████████▌ | 6270/7135 [5:42:59<42:54, 2.98s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6271/7135 [5:43:02<42:27, 2.95s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6272/7135 [5:43:05<43:54, 3.05s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6273/7135 [5:43:09<47:50, 3.33s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6274/7135 [5:43:12<45:43, 3.19s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6275/7135 [5:43:16<47:32, 3.32s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6276/7135 [5:43:19<47:53, 3.34s/it]
88%|████████████████████████████████████████████████████████████████████▌ | 6277/7135 [5:43:22<46:58, 3.29s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6278/7135 [5:43:26<48:26, 3.39s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6279/7135 [5:43:29<47:20, 3.32s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6280/7135 [5:43:32<44:19, 3.11s/it]
{'loss': 0.6968, 'grad_norm': 5.78125, 'learning_rate': 1.804405972487211e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 555.71, 'epoch': 8.8}
88%|████████████████████████████████████████████████████████████████████▋ | 6280/7135 [5:43:32<44:19, 3.11s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6281/7135 [5:43:35<44:02, 3.09s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6282/7135 [5:43:38<44:35, 3.14s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6283/7135 [5:43:41<43:43, 3.08s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6284/7135 [5:43:44<44:57, 3.17s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6285/7135 [5:43:47<43:15, 3.05s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6286/7135 [5:43:50<41:59, 2.97s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6287/7135 [5:43:53<42:13, 2.99s/it]
88%|████████████████████████████████████████████████████████████████████▋ | 6288/7135 [5:43:56<42:56, 3.04s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6289/7135 [5:43:59<41:28, 2.94s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6290/7135 [5:44:02<42:01, 2.98s/it]
{'loss': 0.7478, 'grad_norm': 4.96875, 'learning_rate': 1.762992999285873e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.26, 'epoch': 8.81}
88%|████████████████████████████████████████████████████████████████████▊ | 6290/7135 [5:44:02<42:01, 2.98s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6291/7135 [5:44:05<41:52, 2.98s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6292/7135 [5:44:08<42:06, 3.00s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6293/7135 [5:44:11<41:51, 2.98s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6294/7135 [5:44:14<42:22, 3.02s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6295/7135 [5:44:17<43:24, 3.10s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6296/7135 [5:44:20<43:08, 3.08s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6297/7135 [5:44:23<41:36, 2.98s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6298/7135 [5:44:26<41:47, 3.00s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6299/7135 [5:44:30<44:05, 3.16s/it]
88%|████████████████████████████████████████████████████████████████████▊ | 6300/7135 [5:44:33<45:05, 3.24s/it]
{'loss': 0.694, 'grad_norm': 5.8125, 'learning_rate': 1.7220434207275928e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.21, 'epoch': 8.82}
88%|████████████████████████████████████████████████████████████████████▊ | 6300/7135 [5:44:33<45:05, 3.24s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6301/7135 [5:44:36<45:35, 3.28s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6302/7135 [5:44:39<44:39, 3.22s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6303/7135 [5:44:42<43:39, 3.15s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6304/7135 [5:44:45<42:25, 3.06s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6305/7135 [5:44:48<42:05, 3.04s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6306/7135 [5:44:52<43:05, 3.12s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6307/7135 [5:44:54<42:17, 3.07s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6308/7135 [5:44:57<42:09, 3.06s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6309/7135 [5:45:01<43:00, 3.12s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6310/7135 [5:45:04<43:16, 3.15s/it]
{'loss': 0.8011, 'grad_norm': 4.4375, 'learning_rate': 1.6815580534328302e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.86, 'epoch': 8.84}
88%|████████████████████████████████████████████████████████████████████▉ | 6310/7135 [5:45:04<43:16, 3.15s/it]
88%|████████████████████████████████████████████████████████████████████▉ | 6311/7135 [5:45:07<43:00, 3.13s/it]
88%|█████████████████████████████████████████████████████████████████████ | 6312/7135 [5:45:10<41:50, 3.05s/it]
88%|█████████████████████████████████████████████████████████████████████ | 6313/7135 [5:45:13<41:49, 3.05s/it]
88%|█████████████████████████████████████████████████████████████████████ | 6314/7135 [5:45:17<46:18, 3.38s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6315/7135 [5:45:20<45:13, 3.31s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6316/7135 [5:45:24<46:47, 3.43s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6317/7135 [5:45:27<44:26, 3.26s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6318/7135 [5:45:30<43:04, 3.16s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6319/7135 [5:45:34<45:18, 3.33s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6320/7135 [5:45:37<44:19, 3.26s/it]
{'loss': 0.6962, 'grad_norm': 6.0625, 'learning_rate': 1.6415377047647063e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.5, 'epoch': 8.85}
89%|█████████████████████████████████████████████████████████████████████ | 6320/7135 [5:45:37<44:19, 3.26s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6321/7135 [5:45:39<41:56, 3.09s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6322/7135 [5:45:43<43:22, 3.20s/it]
89%|█████████████████████████████████████████████████████████████████████ | 6323/7135 [5:45:46<43:19, 3.20s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6324/7135 [5:45:49<43:33, 3.22s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6325/7135 [5:45:52<41:52, 3.10s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6326/7135 [5:45:55<41:40, 3.09s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6327/7135 [5:45:58<41:49, 3.11s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6328/7135 [5:46:02<43:06, 3.21s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6329/7135 [5:46:06<46:25, 3.46s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6330/7135 [5:46:09<44:56, 3.35s/it]
{'loss': 0.6655, 'grad_norm': 4.75, 'learning_rate': 1.601983172812882e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.16, 'epoch': 8.87}
89%|█████████████████████████████████████████████████████████████████████▏ | 6330/7135 [5:46:09<44:56, 3.35s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6331/7135 [5:46:12<43:06, 3.22s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6332/7135 [5:46:15<43:16, 3.23s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6333/7135 [5:46:18<42:24, 3.17s/it]
89%|█████████████████████████████████████████████████████████████████████▏ | 6334/7135 [5:46:21<42:06, 3.15s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6335/7135 [5:46:24<42:30, 3.19s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6336/7135 [5:46:28<42:34, 3.20s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6337/7135 [5:46:31<42:03, 3.16s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6338/7135 [5:46:34<41:09, 3.10s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6339/7135 [5:46:37<41:05, 3.10s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6340/7135 [5:46:40<40:47, 3.08s/it]
{'loss': 0.7884, 'grad_norm': 5.21875, 'learning_rate': 1.562895246377663e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 395.13, 'epoch': 8.88}
89%|█████████████████████████████████████████████████████████████████████▎ | 6340/7135 [5:46:40<40:47, 3.08s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6341/7135 [5:46:43<40:57, 3.09s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6342/7135 [5:46:47<45:25, 3.44s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6343/7135 [5:46:50<44:54, 3.40s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6344/7135 [5:46:54<44:44, 3.39s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6345/7135 [5:46:57<43:47, 3.33s/it]
89%|█████████████████████████████████████████████████████████████████████▎ | 6346/7135 [5:47:00<43:17, 3.29s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6347/7135 [5:47:03<42:42, 3.25s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6348/7135 [5:47:07<42:05, 3.21s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6349/7135 [5:47:10<44:44, 3.42s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6350/7135 [5:47:14<43:49, 3.35s/it]
{'loss': 0.7315, 'grad_norm': 1.984375, 'learning_rate': 1.5242747049542677e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 455.54, 'epoch': 8.89}
89%|█████████████████████████████████████████████████████████████████████▍ | 6350/7135 [5:47:14<43:49, 3.35s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6351/7135 [5:47:17<43:56, 3.36s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6352/7135 [5:47:21<44:43, 3.43s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6353/7135 [5:47:24<44:45, 3.43s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6354/7135 [5:47:27<42:50, 3.29s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6355/7135 [5:47:30<42:56, 3.30s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6356/7135 [5:47:33<41:16, 3.18s/it]
89%|█████████████████████████████████████████████████████████████████████▍ | 6357/7135 [5:47:37<42:11, 3.25s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6358/7135 [5:47:40<42:54, 3.31s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6359/7135 [5:47:43<41:10, 3.18s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6360/7135 [5:47:46<40:05, 3.10s/it]
{'loss': 0.7492, 'grad_norm': 5.4375, 'learning_rate': 1.4861223187172674e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 454.48, 'epoch': 8.91}
89%|█████████████████████████████████████████████████████████████████████▌ | 6360/7135 [5:47:46<40:05, 3.10s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6361/7135 [5:47:49<39:16, 3.05s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6362/7135 [5:47:53<43:47, 3.40s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6363/7135 [5:47:56<43:15, 3.36s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6364/7135 [5:47:59<41:41, 3.24s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6365/7135 [5:48:02<41:05, 3.20s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6366/7135 [5:48:06<41:13, 3.22s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6367/7135 [5:48:09<40:11, 3.14s/it]
89%|█████████████████████████████████████████████████████████████████████▌ | 6368/7135 [5:48:11<39:09, 3.06s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6369/7135 [5:48:14<38:43, 3.03s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6370/7135 [5:48:18<40:18, 3.16s/it]
{'loss': 0.8889, 'grad_norm': 4.71875, 'learning_rate': 1.4484388485052375e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.5, 'epoch': 8.92}
89%|█████████████████████████████████████████████████████████████████████▋ | 6370/7135 [5:48:18<40:18, 3.16s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6371/7135 [5:48:21<38:49, 3.05s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6372/7135 [5:48:25<42:11, 3.32s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6373/7135 [5:48:27<39:44, 3.13s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6374/7135 [5:48:31<41:51, 3.30s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6375/7135 [5:48:35<42:38, 3.37s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6376/7135 [5:48:38<41:13, 3.26s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6377/7135 [5:48:41<41:15, 3.27s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6378/7135 [5:48:44<40:51, 3.24s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6379/7135 [5:48:47<40:14, 3.19s/it]
89%|█████████████████████████████████████████████████████████████████████▋ | 6380/7135 [5:48:50<38:35, 3.07s/it]
{'loss': 0.7562, 'grad_norm': 5.6875, 'learning_rate': 1.4112250458055976e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.29, 'epoch': 8.94}
89%|█████████████████████████████████████████████████████████████████████▋ | 6380/7135 [5:48:50<38:35, 3.07s/it]
89%|█████████████████████████████████████████████████████████████████████▊ | 6381/7135 [5:48:53<40:00, 3.18s/it]
89%|█████████████████████████████████████████████████████████████████████▊ | 6382/7135 [5:48:56<39:30, 3.15s/it]
89%|█████████████████████████████████████████████████████████████████████▊ | 6383/7135 [5:49:00<42:00, 3.35s/it]
89%|█████████████████████████████████████████████████████████████████████▊ | 6384/7135 [5:49:05<47:13, 3.77s/it]
89%|█████████████████████████████████████████████████████████████████████▊ | 6385/7135 [5:49:08<43:16, 3.46s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6386/7135 [5:49:11<42:09, 3.38s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6387/7135 [5:49:14<40:45, 3.27s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6388/7135 [5:49:18<45:12, 3.63s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6389/7135 [5:49:22<46:22, 3.73s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6390/7135 [5:49:25<43:12, 3.48s/it]
{'loss': 0.9187, 'grad_norm': 3.59375, 'learning_rate': 1.374481652739601e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 614.29, 'epoch': 8.95}
90%|█████████████████████████████████████████████████████████████████████▊ | 6390/7135 [5:49:25<43:12, 3.48s/it]
90%|█████████████████████████████████████████████████████████████████████▊ | 6391/7135 [5:49:29<42:49, 3.45s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6392/7135 [5:49:31<39:57, 3.23s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6393/7135 [5:49:34<38:55, 3.15s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6394/7135 [5:49:37<37:56, 3.07s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6395/7135 [5:49:40<36:50, 2.99s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6396/7135 [5:49:43<37:02, 3.01s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6397/7135 [5:49:46<36:09, 2.94s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6398/7135 [5:49:49<36:17, 2.95s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6399/7135 [5:49:52<38:09, 3.11s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6400/7135 [5:49:55<37:38, 3.07s/it]
{'loss': 0.7097, 'grad_norm': 4.6875, 'learning_rate': 1.3382094020475466e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 370.73, 'epoch': 8.96}
90%|█████████████████████████████████████████████████████████████████████▉ | 6400/7135 [5:49:55<37:38, 3.07s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6401/7135 [5:49:58<35:57, 2.94s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6402/7135 [5:50:01<36:40, 3.00s/it]
90%|█████████████████████████████████████████████████████████████████████▉ | 6403/7135 [5:50:04<36:33, 3.00s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6404/7135 [5:50:07<38:08, 3.13s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6405/7135 [5:50:11<39:24, 3.24s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6406/7135 [5:50:14<39:33, 3.26s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6407/7135 [5:50:17<38:52, 3.20s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6408/7135 [5:50:21<40:18, 3.33s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6409/7135 [5:50:24<38:56, 3.22s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6410/7135 [5:50:27<38:46, 3.21s/it]
{'loss': 0.833, 'grad_norm': 5.5, 'learning_rate': 1.3024090170741716e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 417.99, 'epoch': 8.98}
90%|██████████████████████████████████████████████████████████████████████ | 6410/7135 [5:50:27<38:46, 3.21s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6411/7135 [5:50:31<39:32, 3.28s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6412/7135 [5:50:34<39:10, 3.25s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6413/7135 [5:50:37<38:11, 3.17s/it]
90%|██████████████████████████████████████████████████████████████████████ | 6414/7135 [5:50:40<37:28, 3.12s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6415/7135 [5:50:43<38:30, 3.21s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6416/7135 [5:50:46<38:06, 3.18s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6417/7135 [5:50:50<40:18, 3.37s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6418/7135 [5:50:54<42:04, 3.52s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6419/7135 [5:50:57<41:17, 3.46s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6420/7135 [5:51:00<40:27, 3.39s/it]
{'loss': 0.8098, 'grad_norm': 4.59375, 'learning_rate': 1.2670812117542146e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.25, 'epoch': 8.99}
90%|██████████████████████████████████████████████████████████████████████▏ | 6420/7135 [5:51:01<40:27, 3.39s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6421/7135 [5:51:03<38:09, 3.21s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6422/7135 [5:51:07<39:44, 3.34s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6423/7135 [5:51:10<39:02, 3.29s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6424/7135 [5:51:13<39:25, 3.33s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6425/7135 [5:51:16<38:13, 3.23s/it]
90%|██████████████████████████████████████████████████████████████████████▏ | 6426/7135 [5:51:18<32:26, 2.74s/it][2025-12-23 20:15:24,263] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-6426
90%|████████████████████████████████████████████████████████████████████▍ | 6427/7135 [5:52:22<4:10:34, 21.23s/it]
90%|████████████████████████████████████████████████████████████████████▍ | 6428/7135 [5:52:26<3:06:13, 15.80s/it]
90%|████████████████████████████████████████████████████████████████████▍ | 6429/7135 [5:52:29<2:21:50, 12.06s/it]
90%|████████████████████████████████████████████████████████████████████▍ | 6430/7135 [5:52:32<1:48:55, 9.27s/it]
{'loss': 0.8396, 'grad_norm': 5.46875, 'learning_rate': 1.2322266905981927e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 476.5, 'epoch': 9.01}
90%|████████████████████████████████████████████████████████████████████▍ | 6430/7135 [5:52:32<1:48:55, 9.27s/it]
90%|████████████████████████████████████████████████████████████████████▌ | 6431/7135 [5:52:35<1:27:58, 7.50s/it]
90%|████████████████████████████████████████████████████████████████████▌ | 6432/7135 [5:52:38<1:12:16, 6.17s/it]
90%|████████████████████████████████████████████████████████████████████▌ | 6433/7135 [5:52:42<1:03:31, 5.43s/it]
90%|██████████████████████████████████████████████████████████████████████▎ | 6434/7135 [5:52:45<55:01, 4.71s/it]
90%|██████████████████████████████████████████████████████████████████████▎ | 6435/7135 [5:52:48<49:10, 4.21s/it]
90%|██████████████████████████████████████████████████████████████████████▎ | 6436/7135 [5:52:51<45:07, 3.87s/it]
90%|██████████████████████████████████████████████████████████████████████▎ | 6437/7135 [5:52:54<43:30, 3.74s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6438/7135 [5:52:58<42:14, 3.64s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6439/7135 [5:53:01<40:24, 3.48s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6440/7135 [5:53:05<41:08, 3.55s/it]
{'loss': 0.964, 'grad_norm': 4.625, 'learning_rate': 1.1978461486783416e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.06, 'epoch': 9.02}
90%|██████████████████████████████████████████████████████████████████████▍ | 6440/7135 [5:53:05<41:08, 3.55s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6441/7135 [5:53:08<38:47, 3.35s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6442/7135 [5:53:10<37:01, 3.21s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6443/7135 [5:53:14<37:17, 3.23s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6444/7135 [5:53:17<37:04, 3.22s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6445/7135 [5:53:20<36:58, 3.22s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6446/7135 [5:53:23<36:30, 3.18s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6447/7135 [5:53:27<38:28, 3.36s/it]
90%|██████████████████████████████████████████████████████████████████████▍ | 6448/7135 [5:53:30<38:41, 3.38s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6449/7135 [5:53:34<37:45, 3.30s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6450/7135 [5:53:37<36:57, 3.24s/it]
{'loss': 0.7978, 'grad_norm': 4.5625, 'learning_rate': 1.1639402716147525e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.72, 'epoch': 9.03}
90%|██████████████████████████████████████████████████████████████████████▌ | 6450/7135 [5:53:37<36:57, 3.24s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6451/7135 [5:53:39<35:32, 3.12s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6452/7135 [5:53:42<34:27, 3.03s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6453/7135 [5:53:46<36:09, 3.18s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6454/7135 [5:53:49<35:41, 3.14s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6455/7135 [5:53:52<35:09, 3.10s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6456/7135 [5:53:55<35:13, 3.11s/it]
90%|██████████████████████████████████████████████████████████████████████▌ | 6457/7135 [5:53:59<36:29, 3.23s/it]
91%|██████████████████████████████████████████████████████████████████████▌ | 6458/7135 [5:54:02<36:06, 3.20s/it]
91%|██████████████████████████████████████████████████████████████████████▌ | 6459/7135 [5:54:05<36:39, 3.25s/it]
91%|██████████████████████████████████████████████████████████████████████▌ | 6460/7135 [5:54:08<36:16, 3.22s/it]
{'loss': 0.7774, 'grad_norm': 4.875, 'learning_rate': 1.1305097355617106e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 372.61, 'epoch': 9.05}
91%|██████████████████████████████████████████████████████████████████████▌ | 6460/7135 [5:54:08<36:16, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6461/7135 [5:54:12<36:42, 3.27s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6462/7135 [5:54:15<36:04, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6463/7135 [5:54:18<35:44, 3.19s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6464/7135 [5:54:21<36:55, 3.30s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6465/7135 [5:54:24<36:17, 3.25s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6466/7135 [5:54:27<35:25, 3.18s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6467/7135 [5:54:31<36:37, 3.29s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6468/7135 [5:54:34<35:48, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6469/7135 [5:54:37<35:44, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6470/7135 [5:54:41<38:07, 3.44s/it]
{'loss': 0.79, 'grad_norm': 1.8125, 'learning_rate': 1.0975552071942037e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 408.1, 'epoch': 9.06}
91%|██████████████████████████████████████████████████████████████████████▋ | 6470/7135 [5:54:41<38:07, 3.44s/it]
91%|██████████████████████████████████████████████████████████████████████▋ | 6471/7135 [5:54:45<38:07, 3.45s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6472/7135 [5:54:48<36:24, 3.29s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6473/7135 [5:54:51<36:26, 3.30s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6474/7135 [5:54:54<35:30, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6475/7135 [5:54:57<35:28, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6476/7135 [5:55:00<33:47, 3.08s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6477/7135 [5:55:03<34:12, 3.12s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6478/7135 [5:55:06<34:39, 3.17s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6479/7135 [5:55:10<35:04, 3.21s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6480/7135 [5:55:13<35:28, 3.25s/it]
{'loss': 0.8518, 'grad_norm': 4.84375, 'learning_rate': 1.0650773436946261e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.07, 'epoch': 9.08}
91%|██████████████████████████████████████████████████████████████████████▊ | 6480/7135 [5:55:13<35:28, 3.25s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6481/7135 [5:55:16<34:06, 3.13s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6482/7135 [5:55:19<33:41, 3.10s/it]
91%|██████████████████████████████████████████████████████████████████████▊ | 6483/7135 [5:55:22<33:34, 3.09s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6484/7135 [5:55:25<34:05, 3.14s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6485/7135 [5:55:30<37:37, 3.47s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6486/7135 [5:55:33<36:05, 3.34s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6487/7135 [5:55:36<34:58, 3.24s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6488/7135 [5:55:39<34:32, 3.20s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6489/7135 [5:55:42<33:33, 3.12s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6490/7135 [5:55:45<34:11, 3.18s/it]
{'loss': 0.6538, 'grad_norm': 5.4375, 'learning_rate': 1.0330767927396706e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 336.42, 'epoch': 9.09}
91%|██████████████████████████████████████████████████████████████████████▉ | 6490/7135 [5:55:45<34:11, 3.18s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6491/7135 [5:55:48<34:06, 3.18s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6492/7135 [5:55:51<34:13, 3.19s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6493/7135 [5:55:55<34:27, 3.22s/it]
91%|██████████████████████████████████████████████████████████████████████▉ | 6494/7135 [5:55:58<34:37, 3.24s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6495/7135 [5:56:01<33:44, 3.16s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6496/7135 [5:56:04<32:58, 3.10s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6497/7135 [5:56:08<35:30, 3.34s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6498/7135 [5:56:11<35:15, 3.32s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6499/7135 [5:56:14<34:07, 3.22s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6500/7135 [5:56:17<32:55, 3.11s/it]
{'loss': 0.7303, 'grad_norm': 5.21875, 'learning_rate': 1.0015541924874305e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 489.15, 'epoch': 9.1}
91%|███████████████████████████████████████████████████████████████████████ | 6500/7135 [5:56:17<32:55, 3.11s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6501/7135 [5:56:20<33:18, 3.15s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6502/7135 [5:56:24<34:23, 3.26s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6503/7135 [5:56:28<36:54, 3.50s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6504/7135 [5:56:30<34:34, 3.29s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6505/7135 [5:56:34<33:42, 3.21s/it]
91%|███████████████████████████████████████████████████████████████████████ | 6506/7135 [5:56:36<32:12, 3.07s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6507/7135 [5:56:39<31:44, 3.03s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6508/7135 [5:56:42<32:06, 3.07s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6509/7135 [5:56:46<33:38, 3.22s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6510/7135 [5:56:49<32:48, 3.15s/it]
{'loss': 0.8395, 'grad_norm': 5.28125, 'learning_rate': 9.705101715646481e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 408.41, 'epoch': 9.12}
91%|███████████████████████████████████████████████████████████████████████▏ | 6510/7135 [5:56:49<32:48, 3.15s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6511/7135 [5:56:52<33:10, 3.19s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6512/7135 [5:56:56<33:29, 3.23s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6513/7135 [5:56:58<32:37, 3.15s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6514/7135 [5:57:01<31:43, 3.07s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6515/7135 [5:57:05<34:42, 3.36s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6516/7135 [5:57:09<34:04, 3.30s/it]
91%|███████████████████████████████████████████████████████████████████████▏ | 6517/7135 [5:57:12<35:26, 3.44s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6518/7135 [5:57:16<34:35, 3.36s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6519/7135 [5:57:18<32:44, 3.19s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6520/7135 [5:57:21<32:39, 3.19s/it]
{'loss': 0.653, 'grad_norm': 5.15625, 'learning_rate': 9.399453490541916e-08, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.3, 'epoch': 9.13}
91%|███████████████████████████████████████████████████████████████████████▎ | 6520/7135 [5:57:22<32:39, 3.19s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6521/7135 [5:57:25<34:35, 3.38s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6522/7135 [5:57:28<33:45, 3.30s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6523/7135 [5:57:32<33:21, 3.27s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6524/7135 [5:57:34<30:47, 3.02s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6525/7135 [5:57:37<30:34, 3.01s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6526/7135 [5:57:40<29:41, 2.93s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6527/7135 [5:57:43<29:54, 2.95s/it]
91%|███████████████████████████████████████████████████████████████████████▎ | 6528/7135 [5:57:46<30:25, 3.01s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6529/7135 [5:57:49<30:28, 3.02s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6530/7135 [5:57:53<32:37, 3.24s/it]
{'loss': 0.7049, 'grad_norm': 6.875, 'learning_rate': 9.098603344827123e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.45, 'epoch': 9.15}
92%|███████████████████████████████████████████████████████████████████████▍ | 6530/7135 [5:57:53<32:37, 3.24s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6531/7135 [5:57:56<32:31, 3.23s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6532/7135 [5:57:59<31:59, 3.18s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6533/7135 [5:58:02<31:38, 3.15s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6534/7135 [5:58:05<32:19, 3.23s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6535/7135 [5:58:10<34:44, 3.47s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6536/7135 [5:58:13<33:43, 3.38s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6537/7135 [5:58:16<32:55, 3.30s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6538/7135 [5:58:19<33:11, 3.34s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6539/7135 [5:58:23<33:06, 3.33s/it]
92%|███████████████████████████████████████████████████████████████████████▍ | 6540/7135 [5:58:26<32:14, 3.25s/it]
{'loss': 0.7344, 'grad_norm': 5.09375, 'learning_rate': 8.802557278084822e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.97, 'epoch': 9.16}
92%|███████████████████████████████████████████████████████████████████████▍ | 6540/7135 [5:58:26<32:14, 3.25s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6541/7135 [5:58:29<32:28, 3.28s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6542/7135 [5:58:32<32:44, 3.31s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6543/7135 [5:58:36<32:33, 3.30s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6544/7135 [5:58:39<33:00, 3.35s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6545/7135 [5:58:42<32:23, 3.29s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6546/7135 [5:58:46<32:46, 3.34s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6547/7135 [5:58:49<32:59, 3.37s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6548/7135 [5:58:52<32:53, 3.36s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6549/7135 [5:58:56<32:29, 3.33s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6550/7135 [5:58:59<31:16, 3.21s/it]
{'loss': 0.7514, 'grad_norm': 5.0, 'learning_rate': 8.511321194094313e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.7, 'epoch': 9.17}
92%|███████████████████████████████████████████████████████████████████████▌ | 6550/7135 [5:58:59<31:16, 3.21s/it]
92%|███████████████████████████████████████████████████████████████████████▌ | 6551/7135 [5:59:02<32:38, 3.35s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6552/7135 [5:59:06<32:20, 3.33s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6553/7135 [5:59:09<32:39, 3.37s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6554/7135 [5:59:12<30:55, 3.19s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6555/7135 [5:59:15<31:35, 3.27s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6556/7135 [5:59:18<30:24, 3.15s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6557/7135 [5:59:21<29:04, 3.02s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6558/7135 [5:59:24<28:40, 2.98s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6559/7135 [5:59:27<28:51, 3.01s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6560/7135 [5:59:30<29:14, 3.05s/it]
{'loss': 0.6784, 'grad_norm': 4.90625, 'learning_rate': 8.224900900713818e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 332.32, 'epoch': 9.19}
92%|███████████████████████████████████████████████████████████████████████▋ | 6560/7135 [5:59:30<29:14, 3.05s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6561/7135 [5:59:33<30:23, 3.18s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6562/7135 [5:59:37<31:23, 3.29s/it]
92%|███████████████████████████████████████████████████████████████████████▋ | 6563/7135 [5:59:40<30:53, 3.24s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6564/7135 [5:59:44<31:30, 3.31s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6565/7135 [5:59:47<31:23, 3.30s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6566/7135 [5:59:50<31:20, 3.30s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6567/7135 [5:59:54<31:31, 3.33s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6568/7135 [5:59:58<33:10, 3.51s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6569/7135 [6:00:01<32:19, 3.43s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6570/7135 [6:00:04<32:00, 3.40s/it]
{'loss': 0.655, 'grad_norm': 4.625, 'learning_rate': 7.943302109764517e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.6, 'epoch': 9.2}
92%|███████████████████████████████████████████████████████████████████████▊ | 6570/7135 [6:00:04<32:00, 3.40s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6571/7135 [6:00:07<30:47, 3.28s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6572/7135 [6:00:10<30:52, 3.29s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6573/7135 [6:00:13<28:56, 3.09s/it]
92%|███████████████████████████████████████████████████████████████████████▊ | 6574/7135 [6:00:16<28:37, 3.06s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6575/7135 [6:00:19<28:30, 3.05s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6576/7135 [6:00:22<28:15, 3.03s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6577/7135 [6:00:25<27:36, 2.97s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6578/7135 [6:00:28<27:39, 2.98s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6579/7135 [6:00:31<27:57, 3.02s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6580/7135 [6:00:34<27:14, 2.94s/it]
{'loss': 0.677, 'grad_norm': 4.34375, 'learning_rate': 7.666530436916814e-08, 'memory/max_active (GiB)': 34.53, 'memory/max_allocated (GiB)': 34.53, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.84, 'epoch': 9.22}
92%|███████████████████████████████████████████████████████████████████████▉ | 6580/7135 [6:00:34<27:14, 2.94s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6581/7135 [6:00:37<27:59, 3.03s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6582/7135 [6:00:40<28:17, 3.07s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6583/7135 [6:00:43<28:38, 3.11s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6584/7135 [6:00:47<29:29, 3.21s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6585/7135 [6:00:50<30:02, 3.28s/it]
92%|███████████████████████████████████████████████████████████████████████▉ | 6586/7135 [6:00:53<29:12, 3.19s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6587/7135 [6:00:56<28:21, 3.10s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6588/7135 [6:00:59<27:55, 3.06s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6589/7135 [6:01:03<29:00, 3.19s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6590/7135 [6:01:06<28:36, 3.15s/it]
{'loss': 0.5958, 'grad_norm': 4.46875, 'learning_rate': 7.394591401578166e-08, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 498.04, 'epoch': 9.23}
92%|████████████████████████████████████████████████████████████████████████ | 6590/7135 [6:01:06<28:36, 3.15s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6591/7135 [6:01:08<27:31, 3.04s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6592/7135 [6:01:12<28:50, 3.19s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6593/7135 [6:01:15<28:24, 3.15s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6594/7135 [6:01:18<28:11, 3.13s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6595/7135 [6:01:21<27:41, 3.08s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6596/7135 [6:01:25<28:44, 3.20s/it]
92%|████████████████████████████████████████████████████████████████████████ | 6597/7135 [6:01:28<30:42, 3.43s/it]
92%|████████████████████████████████████████████████████████████████████████▏ | 6598/7135 [6:01:31<28:32, 3.19s/it]
92%|████████████████████████████████████████████████████████████████████████▏ | 6599/7135 [6:01:34<27:13, 3.05s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6600/7135 [6:01:38<29:24, 3.30s/it]
{'loss': 0.7783, 'grad_norm': 4.125, 'learning_rate': 7.127490426783124e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 329.2, 'epoch': 9.24}
93%|████████████████████████████████████████████████████████████████████████▏ | 6600/7135 [6:01:38<29:24, 3.30s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6601/7135 [6:01:41<28:25, 3.19s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6602/7135 [6:01:43<26:54, 3.03s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6603/7135 [6:01:47<28:51, 3.25s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6604/7135 [6:01:50<27:56, 3.16s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6605/7135 [6:01:53<27:41, 3.13s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6606/7135 [6:01:56<27:37, 3.13s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6607/7135 [6:02:00<29:27, 3.35s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6608/7135 [6:02:03<28:32, 3.25s/it]
93%|████████████████████████████████████████████████████████████████████████▏ | 6609/7135 [6:02:06<27:34, 3.15s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6610/7135 [6:02:10<30:20, 3.47s/it]
{'loss': 0.6792, 'grad_norm': 5.78125, 'learning_rate': 6.865232839085246e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 236.44, 'epoch': 9.26}
93%|████████████████████████████████████████████████████████████████████████▎ | 6610/7135 [6:02:10<30:20, 3.47s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6611/7135 [6:02:14<30:45, 3.52s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6612/7135 [6:02:17<29:33, 3.39s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6613/7135 [6:02:20<27:38, 3.18s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6614/7135 [6:02:22<26:42, 3.08s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6615/7135 [6:02:26<27:01, 3.12s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6616/7135 [6:02:29<26:51, 3.10s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6617/7135 [6:02:32<27:26, 3.18s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6618/7135 [6:02:35<27:25, 3.18s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6619/7135 [6:02:39<28:15, 3.29s/it]
93%|████████████████████████████████████████████████████████████████████████▎ | 6620/7135 [6:02:42<27:57, 3.26s/it]
{'loss': 0.7363, 'grad_norm': 4.21875, 'learning_rate': 6.607823868450658e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 387.59, 'epoch': 9.27}
93%|████████████████████████████████████████████████████████████████████████▎ | 6620/7135 [6:02:42<27:57, 3.26s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6621/7135 [6:02:45<28:00, 3.27s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6622/7135 [6:02:48<27:20, 3.20s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6623/7135 [6:02:51<27:02, 3.17s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6624/7135 [6:02:55<26:59, 3.17s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6625/7135 [6:02:57<26:06, 3.07s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6626/7135 [6:03:01<26:02, 3.07s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6627/7135 [6:03:04<28:04, 3.32s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6628/7135 [6:03:07<26:47, 3.17s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6629/7135 [6:03:10<26:37, 3.16s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6630/7135 [6:03:13<25:52, 3.07s/it]
{'loss': 0.8208, 'grad_norm': 5.46875, 'learning_rate': 6.355268648154e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 460.67, 'epoch': 9.29}
93%|████████████████████████████████████████████████████████████████████████▍ | 6630/7135 [6:03:13<25:52, 3.07s/it]
93%|████████████████████████████████████████████████████████████████████████▍ | 6631/7135 [6:03:16<25:36, 3.05s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6632/7135 [6:03:20<26:17, 3.14s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6633/7135 [6:03:23<26:02, 3.11s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6634/7135 [6:03:26<26:00, 3.11s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6635/7135 [6:03:29<25:50, 3.10s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6636/7135 [6:03:32<24:55, 3.00s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6637/7135 [6:03:35<25:12, 3.04s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6638/7135 [6:03:38<26:12, 3.16s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6639/7135 [6:03:41<25:44, 3.11s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6640/7135 [6:03:44<25:43, 3.12s/it]
{'loss': 0.6463, 'grad_norm': 3.1875, 'learning_rate': 6.10757221467595e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 388.63, 'epoch': 9.3}
93%|████████████████████████████████████████████████████████████████████████▌ | 6640/7135 [6:03:44<25:43, 3.12s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6641/7135 [6:03:48<26:11, 3.18s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6642/7135 [6:03:50<24:44, 3.01s/it]
93%|████████████████████████████████████████████████████████████████████████▌ | 6643/7135 [6:03:53<24:20, 2.97s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6644/7135 [6:03:56<24:02, 2.94s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6645/7135 [6:03:59<24:37, 3.02s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6646/7135 [6:04:02<24:20, 2.99s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6647/7135 [6:04:05<24:59, 3.07s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6648/7135 [6:04:08<24:20, 3.00s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6649/7135 [6:04:11<24:26, 3.02s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6650/7135 [6:04:15<24:54, 3.08s/it]
{'loss': 0.6926, 'grad_norm': 4.1875, 'learning_rate': 5.864739507602746e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.86, 'epoch': 9.31}
93%|████████████████████████████████████████████████████████████████████████▋ | 6650/7135 [6:04:15<24:54, 3.08s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6651/7135 [6:04:17<24:31, 3.04s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6652/7135 [6:04:20<24:15, 3.01s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6653/7135 [6:04:24<24:58, 3.11s/it]
93%|████████████████████████████████████████████████████████████████████████▋ | 6654/7135 [6:04:27<24:25, 3.05s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6655/7135 [6:04:30<25:11, 3.15s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6656/7135 [6:04:33<24:35, 3.08s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6657/7135 [6:04:36<24:35, 3.09s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6658/7135 [6:04:39<24:28, 3.08s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6659/7135 [6:04:42<24:24, 3.08s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6660/7135 [6:04:45<24:36, 3.11s/it]
{'loss': 0.8184, 'grad_norm': 3.875, 'learning_rate': 5.626775369527687e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 435.66, 'epoch': 9.33}
93%|████████████████████████████████████████████████████████████████████████▊ | 6660/7135 [6:04:45<24:36, 3.11s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6661/7135 [6:04:48<23:38, 2.99s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6662/7135 [6:04:52<25:01, 3.18s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6663/7135 [6:04:55<24:57, 3.17s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6664/7135 [6:04:59<28:17, 3.60s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6665/7135 [6:05:03<28:19, 3.62s/it]
93%|████████████████████████████████████████████████████████████████████████▊ | 6666/7135 [6:05:07<28:23, 3.63s/it]
93%|████████████████████████████████████████████████████████████████████████▉ | 6667/7135 [6:05:10<28:21, 3.64s/it]
93%|████████████████████████████████████████████████████████████████████████▉ | 6668/7135 [6:05:14<28:37, 3.68s/it]
93%|████████████████████████████████████████████████████████████████████████▉ | 6669/7135 [6:05:17<27:11, 3.50s/it]
93%|████████████████████████████████████████████████████████████████████████▉ | 6670/7135 [6:05:21<27:07, 3.50s/it]
{'loss': 0.8465, 'grad_norm': 6.15625, 'learning_rate': 5.393684545954736e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.67, 'epoch': 9.34}
93%|████████████████████████████████████████████████████████████████████████▉ | 6670/7135 [6:05:21<27:07, 3.50s/it]
93%|████████████████████████████████████████████████████████████████████████▉ | 6671/7135 [6:05:24<25:36, 3.31s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6672/7135 [6:05:26<23:46, 3.08s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6673/7135 [6:05:29<24:12, 3.14s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6674/7135 [6:05:33<24:25, 3.18s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6675/7135 [6:05:37<26:28, 3.45s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6676/7135 [6:05:41<27:25, 3.59s/it]
94%|████████████████████████████████████████████████████████████████████████▉ | 6677/7135 [6:05:44<26:09, 3.43s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6678/7135 [6:05:46<24:00, 3.15s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6679/7135 [6:05:49<23:59, 3.16s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6680/7135 [6:05:52<23:00, 3.03s/it]
{'loss': 0.8488, 'grad_norm': 5.4375, 'learning_rate': 5.1654716852036216e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.79, 'epoch': 9.36}
94%|█████████████████████████████████████████████████████████████████████████ | 6680/7135 [6:05:52<23:00, 3.03s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6681/7135 [6:05:55<23:21, 3.09s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6682/7135 [6:05:59<24:42, 3.27s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6683/7135 [6:06:02<23:57, 3.18s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6684/7135 [6:06:06<26:29, 3.52s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6685/7135 [6:06:10<26:41, 3.56s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6686/7135 [6:06:13<25:23, 3.39s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6687/7135 [6:06:17<26:04, 3.49s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6688/7135 [6:06:19<24:03, 3.23s/it]
94%|█████████████████████████████████████████████████████████████████████████ | 6689/7135 [6:06:23<23:51, 3.21s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6690/7135 [6:06:25<23:04, 3.11s/it]
{'loss': 0.6822, 'grad_norm': 4.4375, 'learning_rate': 4.942141338317274e-08, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.85, 'epoch': 9.37}
94%|█████████████████████████████████████████████████████████████████████████▏ | 6690/7135 [6:06:26<23:04, 3.11s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6691/7135 [6:06:28<22:21, 3.02s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6692/7135 [6:06:32<24:17, 3.29s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6693/7135 [6:06:35<23:59, 3.26s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6694/7135 [6:06:38<22:52, 3.11s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6695/7135 [6:06:42<23:33, 3.21s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6696/7135 [6:06:45<24:32, 3.35s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6697/7135 [6:06:49<24:42, 3.39s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6698/7135 [6:06:52<24:17, 3.33s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6699/7135 [6:06:56<25:05, 3.45s/it]
94%|█████████████████████████████████████████████████████████████████████████▏ | 6700/7135 [6:06:59<24:22, 3.36s/it]
{'loss': 0.7437, 'grad_norm': 4.59375, 'learning_rate': 4.7236979589711516e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.85, 'epoch': 9.38}
94%|█████████████████████████████████████████████████████████████████████████▏ | 6700/7135 [6:06:59<24:22, 3.36s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6701/7135 [6:07:02<23:35, 3.26s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6702/7135 [6:07:05<24:11, 3.35s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6703/7135 [6:07:08<23:18, 3.24s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6704/7135 [6:07:12<24:05, 3.35s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6705/7135 [6:07:16<24:22, 3.40s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6706/7135 [6:07:18<23:21, 3.27s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6707/7135 [6:07:21<22:16, 3.12s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6708/7135 [6:07:25<23:18, 3.28s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6709/7135 [6:07:28<23:39, 3.33s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6710/7135 [6:07:32<23:21, 3.30s/it]
{'loss': 0.7693, 'grad_norm': 6.125, 'learning_rate': 4.510145903384222e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.37, 'epoch': 9.4}
94%|█████████████████████████████████████████████████████████████████████████▎ | 6710/7135 [6:07:32<23:21, 3.30s/it]
94%|█████████████████████████████████████████████████████████████████████████▎ | 6711/7135 [6:07:35<24:27, 3.46s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6712/7135 [6:07:39<24:04, 3.41s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6713/7135 [6:07:42<24:25, 3.47s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6714/7135 [6:07:45<23:28, 3.35s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6715/7135 [6:07:49<23:16, 3.33s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6716/7135 [6:07:52<23:32, 3.37s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6717/7135 [6:07:55<23:15, 3.34s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6718/7135 [6:07:58<21:46, 3.13s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6719/7135 [6:08:02<23:04, 3.33s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6720/7135 [6:08:05<22:45, 3.29s/it]
{'loss': 0.8589, 'grad_norm': 5.625, 'learning_rate': 4.301489430232259e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.49, 'epoch': 9.41}
94%|█████████████████████████████████████████████████████████████████████████▍ | 6720/7135 [6:08:05<22:45, 3.29s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6721/7135 [6:08:08<22:49, 3.31s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6722/7135 [6:08:12<22:38, 3.29s/it]
94%|█████████████████████████████████████████████████████████████████████████▍ | 6723/7135 [6:08:15<22:21, 3.26s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6724/7135 [6:08:18<22:26, 3.28s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6725/7135 [6:08:21<22:32, 3.30s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6726/7135 [6:08:24<21:35, 3.17s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6727/7135 [6:08:28<23:15, 3.42s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6728/7135 [6:08:32<23:52, 3.52s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6729/7135 [6:08:36<24:18, 3.59s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6730/7135 [6:08:39<22:56, 3.40s/it]
{'loss': 0.7831, 'grad_norm': 3.734375, 'learning_rate': 4.097732700562906e-08, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 480.21, 'epoch': 9.43}
94%|█████████████████████████████████████████████████████████████████████████▌ | 6730/7135 [6:08:39<22:56, 3.40s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6731/7135 [6:08:43<23:32, 3.50s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6732/7135 [6:08:46<22:38, 3.37s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6733/7135 [6:08:49<22:34, 3.37s/it]
94%|█████████████████████████████████████████████████████████████████████████▌ | 6734/7135 [6:08:53<23:20, 3.49s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6735/7135 [6:08:56<22:15, 3.34s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6736/7135 [6:08:59<21:46, 3.28s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6737/7135 [6:09:02<21:25, 3.23s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6738/7135 [6:09:05<21:43, 3.28s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6739/7135 [6:09:09<22:06, 3.35s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6740/7135 [6:09:12<21:07, 3.21s/it]
{'loss': 0.6915, 'grad_norm': 7.375, 'learning_rate': 3.898879777712528e-08, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.56, 'epoch': 9.44}
94%|█████████████████████████████████████████████████████████████████████████▋ | 6740/7135 [6:09:12<21:07, 3.21s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6741/7135 [6:09:16<22:36, 3.44s/it]
94%|█████████████████████████████████████████████████████████████████████████▋ | 6742/7135 [6:09:19<21:34, 3.29s/it]
95%|█████████████████████████████████████████████████████████████████████████▋ | 6743/7135 [6:09:22<21:45, 3.33s/it]
95%|█████████████████████████████████████████████████████████████████████████▋ | 6744/7135 [6:09:25<21:39, 3.32s/it]
95%|█████████████████████████████████████████████████████████████████████████▋ | 6745/7135 [6:09:28<20:58, 3.23s/it]
95%|█████████████████████████████████████████████████████████████████████████▋ | 6746/7135 [6:09:32<22:14, 3.43s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6747/7135 [6:09:35<21:36, 3.34s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6748/7135 [6:09:39<21:49, 3.38s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6749/7135 [6:09:42<21:06, 3.28s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6750/7135 [6:09:45<20:30, 3.20s/it]
{'loss': 0.6391, 'grad_norm': 5.15625, 'learning_rate': 3.704934627225376e-08, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.32, 'epoch': 9.45}
95%|█████████████████████████████████████████████████████████████████████████▊ | 6750/7135 [6:09:45<20:30, 3.20s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6751/7135 [6:09:48<20:32, 3.21s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6752/7135 [6:09:52<20:33, 3.22s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6753/7135 [6:09:55<20:56, 3.29s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6754/7135 [6:09:58<20:33, 3.24s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6755/7135 [6:10:01<20:38, 3.26s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6756/7135 [6:10:04<19:40, 3.12s/it]
95%|█████████████████████████████████████████████████████████████████████████▊ | 6757/7135 [6:10:07<19:31, 3.10s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6758/7135 [6:10:10<18:59, 3.02s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6759/7135 [6:10:13<19:15, 3.07s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6760/7135 [6:10:17<19:43, 3.16s/it]
{'loss': 0.752, 'grad_norm': 4.59375, 'learning_rate': 3.515901116774412e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 361.42, 'epoch': 9.47}
95%|█████████████████████████████████████████████████████████████████████████▉ | 6760/7135 [6:10:17<19:43, 3.16s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6761/7135 [6:10:20<19:47, 3.18s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6762/7135 [6:10:23<19:01, 3.06s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6763/7135 [6:10:26<19:10, 3.09s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6764/7135 [6:10:29<20:14, 3.27s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6765/7135 [6:10:33<20:09, 3.27s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6766/7135 [6:10:36<20:52, 3.39s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6767/7135 [6:10:40<20:50, 3.40s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6768/7135 [6:10:43<20:12, 3.30s/it]
95%|█████████████████████████████████████████████████████████████████████████▉ | 6769/7135 [6:10:46<20:05, 3.29s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6770/7135 [6:10:49<19:58, 3.28s/it]
{'loss': 0.8281, 'grad_norm': 4.6875, 'learning_rate': 3.3317830160842226e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.28, 'epoch': 9.48}
95%|██████████████████████████████████████████████████████████████████████████ | 6770/7135 [6:10:49<19:58, 3.28s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6771/7135 [6:10:53<19:42, 3.25s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6772/7135 [6:10:56<19:37, 3.24s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6773/7135 [6:10:59<19:25, 3.22s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6774/7135 [6:11:02<18:57, 3.15s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6775/7135 [6:11:06<19:35, 3.26s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6776/7135 [6:11:09<19:30, 3.26s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6777/7135 [6:11:12<20:04, 3.36s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6778/7135 [6:11:17<21:51, 3.67s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6779/7135 [6:11:20<20:37, 3.48s/it]
95%|██████████████████████████████████████████████████████████████████████████ | 6780/7135 [6:11:23<20:06, 3.40s/it]
{'loss': 0.752, 'grad_norm': 5.5625, 'learning_rate': 3.152583996855752e-08, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 535.88, 'epoch': 9.5}
95%|██████████████████████████████████████████████████████████████████████████ | 6780/7135 [6:11:23<20:06, 3.40s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6781/7135 [6:11:27<20:29, 3.47s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6782/7135 [6:11:30<19:23, 3.30s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6783/7135 [6:11:33<19:50, 3.38s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6784/7135 [6:11:37<20:07, 3.44s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6785/7135 [6:11:40<20:04, 3.44s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6786/7135 [6:11:43<19:19, 3.32s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6787/7135 [6:11:46<18:20, 3.16s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6788/7135 [6:11:49<17:35, 3.04s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6789/7135 [6:11:52<18:24, 3.19s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6790/7135 [6:11:56<18:26, 3.21s/it]
{'loss': 0.6769, 'grad_norm': 5.15625, 'learning_rate': 2.9783076326932447e-08, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 309.06, 'epoch': 9.51}
95%|██████████████████████████████████████████████████████████████████████████▏ | 6790/7135 [6:11:56<18:26, 3.21s/it]
95%|██████████████████████████████████████████████████████████████████████████▏ | 6791/7135 [6:11:59<18:32, 3.24s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6792/7135 [6:12:02<18:28, 3.23s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6793/7135 [6:12:05<18:18, 3.21s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6794/7135 [6:12:09<18:22, 3.23s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6795/7135 [6:12:12<18:55, 3.34s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6796/7135 [6:12:15<18:35, 3.29s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6797/7135 [6:12:18<18:09, 3.22s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6798/7135 [6:12:21<17:39, 3.14s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6799/7135 [6:12:25<18:01, 3.22s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6800/7135 [6:12:28<17:34, 3.15s/it]
{'loss': 0.8506, 'grad_norm': 4.1875, 'learning_rate': 2.8089573990328077e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 459.06, 'epoch': 9.52}
95%|██████████████████████████████████████████████████████████████████████████▎ | 6800/7135 [6:12:28<17:34, 3.15s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6801/7135 [6:12:31<17:12, 3.09s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6802/7135 [6:12:33<16:44, 3.02s/it]
95%|██████████████████████████████████████████████████████████████████████████▎ | 6803/7135 [6:12:37<17:16, 3.12s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6804/7135 [6:12:40<16:40, 3.02s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6805/7135 [6:12:43<16:54, 3.07s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6806/7135 [6:12:46<16:17, 2.97s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6807/7135 [6:12:49<16:36, 3.04s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6808/7135 [6:12:52<16:44, 3.07s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6809/7135 [6:12:55<17:04, 3.14s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6810/7135 [6:12:58<17:02, 3.15s/it]
{'loss': 0.7083, 'grad_norm': 5.34375, 'learning_rate': 2.644536673073156e-08, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 330.43, 'epoch': 9.54}
95%|██████████████████████████████████████████████████████████████████████████▍ | 6810/7135 [6:12:58<17:02, 3.15s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6811/7135 [6:13:02<17:01, 3.15s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6812/7135 [6:13:05<16:39, 3.10s/it]
95%|██████████████████████████████████████████████████████████████████████████▍ | 6813/7135 [6:13:08<17:13, 3.21s/it]
96%|██████████████████████████████████████████████████████████████████████████▍ | 6814/7135 [6:13:11<16:19, 3.05s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6815/7135 [6:13:15<17:34, 3.29s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6816/7135 [6:13:18<17:18, 3.26s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6817/7135 [6:13:21<17:16, 3.26s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6818/7135 [6:13:24<16:24, 3.11s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6819/7135 [6:13:27<16:54, 3.21s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6820/7135 [6:13:31<17:20, 3.30s/it]
{'loss': 0.7289, 'grad_norm': 4.0, 'learning_rate': 2.4850487337083896e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 360.75, 'epoch': 9.55}
96%|██████████████████████████████████████████████████████████████████████████▌ | 6820/7135 [6:13:31<17:20, 3.30s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6821/7135 [6:13:34<17:00, 3.25s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6822/7135 [6:13:37<16:13, 3.11s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6823/7135 [6:13:40<16:35, 3.19s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6824/7135 [6:13:43<16:29, 3.18s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6825/7135 [6:13:46<16:15, 3.15s/it]
96%|██████████████████████████████████████████████████████████████████████████▌ | 6826/7135 [6:13:50<16:40, 3.24s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6827/7135 [6:13:53<16:15, 3.17s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6828/7135 [6:13:56<16:23, 3.20s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6829/7135 [6:13:59<15:41, 3.08s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6830/7135 [6:14:02<15:53, 3.13s/it]
{'loss': 0.7187, 'grad_norm': 4.46875, 'learning_rate': 2.3304967614623808e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.7, 'epoch': 9.57}
96%|██████████████████████████████████████████████████████████████████████████▋ | 6830/7135 [6:14:02<15:53, 3.13s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6831/7135 [6:14:05<15:26, 3.05s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6832/7135 [6:14:08<15:33, 3.08s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6833/7135 [6:14:12<16:17, 3.24s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6834/7135 [6:14:15<15:57, 3.18s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6835/7135 [6:14:18<15:34, 3.12s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6836/7135 [6:14:21<15:20, 3.08s/it]
96%|██████████████████████████████████████████████████████████████████████████▋ | 6837/7135 [6:14:24<15:14, 3.07s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6838/7135 [6:14:27<15:48, 3.19s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6839/7135 [6:14:31<16:37, 3.37s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6840/7135 [6:14:34<15:54, 3.24s/it]
{'loss': 0.7146, 'grad_norm': 5.59375, 'learning_rate': 2.180883838425518e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.08, 'epoch': 9.58}
96%|██████████████████████████████████████████████████████████████████████████▊ | 6840/7135 [6:14:34<15:54, 3.24s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6841/7135 [6:14:37<15:34, 3.18s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6842/7135 [6:14:40<15:43, 3.22s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6843/7135 [6:14:43<15:24, 3.17s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6844/7135 [6:14:46<15:08, 3.12s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6845/7135 [6:14:49<14:56, 3.09s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6846/7135 [6:14:53<15:14, 3.17s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6847/7135 [6:14:56<14:54, 3.11s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6848/7135 [6:14:59<14:52, 3.11s/it]
96%|██████████████████████████████████████████████████████████████████████████▊ | 6849/7135 [6:15:02<14:47, 3.10s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6850/7135 [6:15:05<14:54, 3.14s/it]
{'loss': 0.6985, 'grad_norm': 4.09375, 'learning_rate': 2.036212948193228e-08, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 421.95, 'epoch': 9.59}
96%|██████████████████████████████████████████████████████████████████████████▉ | 6850/7135 [6:15:05<14:54, 3.14s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6851/7135 [6:15:08<14:54, 3.15s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6852/7135 [6:15:11<14:42, 3.12s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6853/7135 [6:15:15<15:12, 3.24s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6854/7135 [6:15:18<14:46, 3.16s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6855/7135 [6:15:22<15:55, 3.41s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6856/7135 [6:15:25<15:41, 3.38s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6857/7135 [6:15:28<15:22, 3.32s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6858/7135 [6:15:32<16:03, 3.48s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6859/7135 [6:15:35<15:28, 3.36s/it]
96%|██████████████████████████████████████████████████████████████████████████▉ | 6860/7135 [6:15:38<15:12, 3.32s/it]
{'loss': 0.7141, 'grad_norm': 3.859375, 'learning_rate': 1.896486975806411e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.85, 'epoch': 9.61}
96%|██████████████████████████████████████████████████████████████████████████▉ | 6860/7135 [6:15:38<15:12, 3.32s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6861/7135 [6:15:41<14:26, 3.16s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6862/7135 [6:15:44<14:23, 3.16s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6863/7135 [6:15:47<13:50, 3.05s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6864/7135 [6:15:50<13:58, 3.10s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6865/7135 [6:15:53<13:35, 3.02s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6866/7135 [6:15:56<13:18, 2.97s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6867/7135 [6:15:59<13:41, 3.07s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6868/7135 [6:16:03<13:52, 3.12s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6869/7135 [6:16:05<13:31, 3.05s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6870/7135 [6:16:09<14:04, 3.19s/it]
{'loss': 0.7443, 'grad_norm': 2.84375, 'learning_rate': 1.761708707693932e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 346.3, 'epoch': 9.62}
96%|███████████████████████████████████████████████████████████████████████████ | 6870/7135 [6:16:09<14:04, 3.19s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6871/7135 [6:16:12<13:50, 3.15s/it]
96%|███████████████████████████████████████████████████████████████████████████ | 6872/7135 [6:16:15<14:01, 3.20s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6873/7135 [6:16:18<13:05, 3.00s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6874/7135 [6:16:22<14:04, 3.24s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6875/7135 [6:16:25<14:09, 3.27s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6876/7135 [6:16:28<13:40, 3.17s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6877/7135 [6:16:32<14:50, 3.45s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6878/7135 [6:16:35<14:41, 3.43s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6879/7135 [6:16:39<14:27, 3.39s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6880/7135 [6:16:43<15:17, 3.60s/it]
{'loss': 0.7542, 'grad_norm': 4.59375, 'learning_rate': 1.6318808316170275e-08, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 305.11, 'epoch': 9.64}
96%|███████████████████████████████████████████████████████████████████████████▏ | 6880/7135 [6:16:43<15:17, 3.60s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6881/7135 [6:16:46<14:12, 3.36s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6882/7135 [6:16:49<13:39, 3.24s/it]
96%|███████████████████████████████████████████████████████████████████████████▏ | 6883/7135 [6:16:51<13:10, 3.14s/it]
96%|███████████████████████████████████████████████████████████████████████████▎ | 6884/7135 [6:16:55<13:12, 3.16s/it]
96%|███████████████████████████████████████████████████████████████████████████▎ | 6885/7135 [6:16:58<13:43, 3.29s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6886/7135 [6:17:01<13:18, 3.21s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6887/7135 [6:17:05<13:45, 3.33s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6888/7135 [6:17:08<13:30, 3.28s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6889/7135 [6:17:11<13:13, 3.23s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6890/7135 [6:17:14<13:14, 3.24s/it]
{'loss': 0.8796, 'grad_norm': 4.90625, 'learning_rate': 1.5070059366157908e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 388.97, 'epoch': 9.65}
97%|███████████████████████████████████████████████████████████████████████████▎ | 6890/7135 [6:17:14<13:14, 3.24s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6891/7135 [6:17:17<12:52, 3.17s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6892/7135 [6:17:20<12:36, 3.11s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6893/7135 [6:17:23<12:30, 3.10s/it]
97%|███████████████████████████████████████████████████████████████████████████▎ | 6894/7135 [6:17:27<12:30, 3.11s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6895/7135 [6:17:30<12:28, 3.12s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6896/7135 [6:17:33<13:05, 3.29s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6897/7135 [6:17:36<12:20, 3.11s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6898/7135 [6:17:39<11:53, 3.01s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6899/7135 [6:17:42<11:36, 2.95s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6900/7135 [6:17:45<12:03, 3.08s/it]
{'loss': 0.6862, 'grad_norm': 4.28125, 'learning_rate': 1.387086512957464e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 361.86, 'epoch': 9.66}
97%|███████████████████████████████████████████████████████████████████████████▍ | 6900/7135 [6:17:45<12:03, 3.08s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6901/7135 [6:17:48<11:38, 2.99s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6902/7135 [6:17:51<11:46, 3.03s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6903/7135 [6:17:54<11:29, 2.97s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6904/7135 [6:17:57<11:45, 3.05s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6905/7135 [6:18:00<12:02, 3.14s/it]
97%|███████████████████████████████████████████████████████████████████████████▍ | 6906/7135 [6:18:04<12:28, 3.27s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6907/7135 [6:18:07<12:16, 3.23s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6908/7135 [6:18:10<11:43, 3.10s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6909/7135 [6:18:13<11:16, 2.99s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6910/7135 [6:18:16<11:19, 3.02s/it]
{'loss': 0.8454, 'grad_norm': 5.3125, 'learning_rate': 1.2721249520868118e-08, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 468.77, 'epoch': 9.68}
97%|███████████████████████████████████████████████████████████████████████████▌ | 6910/7135 [6:18:16<11:19, 3.02s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6911/7135 [6:18:19<11:22, 3.05s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6912/7135 [6:18:22<11:23, 3.07s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6913/7135 [6:18:25<11:05, 3.00s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6914/7135 [6:18:28<11:11, 3.04s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6915/7135 [6:18:31<11:05, 3.03s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6916/7135 [6:18:34<10:34, 2.90s/it]
97%|███████████████████████████████████████████████████████████████████████████▌ | 6917/7135 [6:18:38<11:42, 3.22s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6918/7135 [6:18:40<11:13, 3.11s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6919/7135 [6:18:43<11:00, 3.06s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6920/7135 [6:18:46<10:45, 3.00s/it]
{'loss': 0.6405, 'grad_norm': 4.9375, 'learning_rate': 1.1621235465784087e-08, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.87, 'epoch': 9.69}
97%|███████████████████████████████████████████████████████████████████████████▋ | 6920/7135 [6:18:46<10:45, 3.00s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6921/7135 [6:18:49<10:33, 2.96s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6922/7135 [6:18:52<10:32, 2.97s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6923/7135 [6:18:55<10:51, 3.07s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6924/7135 [6:18:59<11:05, 3.15s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6925/7135 [6:19:02<10:50, 3.10s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6926/7135 [6:19:05<10:36, 3.04s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6927/7135 [6:19:09<11:45, 3.39s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6928/7135 [6:19:12<11:18, 3.28s/it]
97%|███████████████████████████████████████████████████████████████████████████▋ | 6929/7135 [6:19:15<11:10, 3.25s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6930/7135 [6:19:19<12:09, 3.56s/it]
{'loss': 0.8038, 'grad_norm': 1.765625, 'learning_rate': 1.0570844900909261e-08, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 369.44, 'epoch': 9.71}
97%|███████████████████████████████████████████████████████████████████████████▊ | 6930/7135 [6:19:19<12:09, 3.56s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6931/7135 [6:19:23<12:02, 3.54s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6932/7135 [6:19:26<11:34, 3.42s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6933/7135 [6:19:29<11:04, 3.29s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6934/7135 [6:19:33<11:52, 3.54s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6935/7135 [6:19:36<11:20, 3.40s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6936/7135 [6:19:39<10:46, 3.25s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6937/7135 [6:19:42<10:33, 3.20s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6938/7135 [6:19:45<10:38, 3.24s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6939/7135 [6:19:49<10:37, 3.25s/it]
97%|███████████████████████████████████████████████████████████████████████████▊ | 6940/7135 [6:19:52<11:04, 3.41s/it]
{'loss': 0.7581, 'grad_norm': 3.78125, 'learning_rate': 9.570098773233894e-09, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 320.52, 'epoch': 9.72}
97%|███████████████████████████████████████████████████████████████████████████▊ | 6940/7135 [6:19:52<11:04, 3.41s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6941/7135 [6:19:56<10:47, 3.34s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6942/7135 [6:19:59<10:24, 3.24s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6943/7135 [6:20:02<10:12, 3.19s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6944/7135 [6:20:06<10:50, 3.41s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6945/7135 [6:20:09<10:44, 3.39s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6946/7135 [6:20:12<10:37, 3.37s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6947/7135 [6:20:15<10:04, 3.21s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6948/7135 [6:20:18<10:00, 3.21s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6949/7135 [6:20:21<09:32, 3.08s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6950/7135 [6:20:24<09:22, 3.04s/it]
{'loss': 0.6575, 'grad_norm': 4.4375, 'learning_rate': 8.619017039734334e-09, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 463.73, 'epoch': 9.73}
97%|███████████████████████████████████████████████████████████████████████████▉ | 6950/7135 [6:20:24<09:22, 3.04s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6951/7135 [6:20:27<09:06, 2.97s/it]
97%|███████████████████████████████████████████████████████████████████████████▉ | 6952/7135 [6:20:30<08:50, 2.90s/it]
97%|████████████████████████████████████████████████████████████████████████████ | 6953/7135 [6:20:32<08:40, 2.86s/it]
97%|████████████████████████████████████████████████████████████████████████████ | 6954/7135 [6:20:35<08:43, 2.89s/it]
97%|████████████████████████████████████████████████████████████████████████████ | 6955/7135 [6:20:39<09:00, 3.00s/it]
97%|████████████████████████████████████████████████████████████████████████████ | 6956/7135 [6:20:42<09:38, 3.23s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6957/7135 [6:20:46<09:34, 3.23s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6958/7135 [6:20:49<09:24, 3.19s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6959/7135 [6:20:52<09:20, 3.18s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6960/7135 [6:20:55<09:24, 3.22s/it]
{'loss': 0.8935, 'grad_norm': 4.9375, 'learning_rate': 7.717618666974458e-09, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.08, 'epoch': 9.75}
98%|████████████████████████████████████████████████████████████████████████████ | 6960/7135 [6:20:55<09:24, 3.22s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6961/7135 [6:20:58<09:27, 3.26s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6962/7135 [6:21:01<09:09, 3.18s/it]
98%|████████████████████████████████████████████████████████████████████████████ | 6963/7135 [6:21:05<08:59, 3.14s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6964/7135 [6:21:07<08:37, 3.03s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6965/7135 [6:21:10<08:23, 2.96s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6966/7135 [6:21:13<08:07, 2.88s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6967/7135 [6:21:16<08:00, 2.86s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6968/7135 [6:21:19<08:15, 2.97s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6969/7135 [6:21:22<08:13, 2.97s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6970/7135 [6:21:25<08:09, 2.97s/it]
{'loss': 0.7027, 'grad_norm': 4.40625, 'learning_rate': 6.865921630727912e-09, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 367.87, 'epoch': 9.76}
98%|████████████████████████████████████████████████████████████████████████████▏ | 6970/7135 [6:21:25<08:09, 2.97s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6971/7135 [6:21:28<08:08, 2.98s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6972/7135 [6:21:31<08:16, 3.05s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6973/7135 [6:21:34<08:30, 3.15s/it]
98%|████████████████████████████████████████████████████████████████████████████▏ | 6974/7135 [6:21:38<08:47, 3.28s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6975/7135 [6:21:41<08:53, 3.34s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6976/7135 [6:21:44<08:13, 3.11s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6977/7135 [6:21:47<08:07, 3.09s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6978/7135 [6:21:50<08:16, 3.16s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6979/7135 [6:21:54<08:27, 3.25s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6980/7135 [6:21:57<08:23, 3.25s/it]
{'loss': 0.7385, 'grad_norm': 5.5625, 'learning_rate': 6.063942915619514e-09, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 351.81, 'epoch': 9.78}
98%|████████████████████████████████████████████████████████████████████████████▎ | 6980/7135 [6:21:57<08:23, 3.25s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6981/7135 [6:22:00<08:10, 3.18s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6982/7135 [6:22:03<08:00, 3.14s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6983/7135 [6:22:06<07:43, 3.05s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6984/7135 [6:22:09<07:28, 2.97s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6985/7135 [6:22:12<07:37, 3.05s/it]
98%|████████████████████████████████████████████████████████████████████████████▎ | 6986/7135 [6:22:15<07:41, 3.10s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6987/7135 [6:22:19<07:54, 3.21s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6988/7135 [6:22:21<07:33, 3.08s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6989/7135 [6:22:25<07:43, 3.18s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6990/7135 [6:22:28<07:35, 3.14s/it]
{'loss': 0.7494, 'grad_norm': 5.9375, 'learning_rate': 5.311698514786356e-09, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.39, 'epoch': 9.79}
98%|████████████████████████████████████████████████████████████████████████████▍ | 6990/7135 [6:22:28<07:35, 3.14s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6991/7135 [6:22:32<08:21, 3.48s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6992/7135 [6:22:35<07:37, 3.20s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6993/7135 [6:22:38<07:44, 3.27s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6994/7135 [6:22:42<07:48, 3.33s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6995/7135 [6:22:45<07:41, 3.30s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6996/7135 [6:22:48<07:48, 3.37s/it]
98%|████████████████████████████████████████████████████████████████████████████▍ | 6997/7135 [6:22:52<08:00, 3.48s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 6998/7135 [6:22:55<07:44, 3.39s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 6999/7135 [6:22:59<07:56, 3.50s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7000/7135 [6:23:02<07:36, 3.38s/it]
{'loss': 0.9475, 'grad_norm': 4.65625, 'learning_rate': 4.609203429558895e-09, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 490.67, 'epoch': 9.8}
98%|████████████████████████████████████████████████████████████████████████████▌ | 7000/7135 [6:23:02<07:36, 3.38s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7001/7135 [6:23:06<08:06, 3.63s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7002/7135 [6:23:09<07:32, 3.40s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7003/7135 [6:23:13<07:36, 3.46s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7004/7135 [6:23:16<07:10, 3.29s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7005/7135 [6:23:19<06:55, 3.20s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7006/7135 [6:23:22<06:55, 3.22s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7007/7135 [6:23:25<06:38, 3.11s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7008/7135 [6:23:28<06:39, 3.14s/it]
98%|████████████████████████████████████████████████████████████████████████████▌ | 7009/7135 [6:23:31<06:32, 3.12s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7010/7135 [6:23:34<06:26, 3.09s/it]
{'loss': 0.8462, 'grad_norm': 4.8125, 'learning_rate': 3.956471669162299e-09, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 505.66, 'epoch': 9.82}
98%|████████████████████████████████████████████████████████████████████████████▋ | 7010/7135 [6:23:34<06:26, 3.09s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7011/7135 [6:23:37<06:17, 3.04s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7012/7135 [6:23:40<06:20, 3.09s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7013/7135 [6:23:43<06:15, 3.08s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7014/7135 [6:23:46<06:08, 3.05s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7015/7135 [6:23:50<06:11, 3.10s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7016/7135 [6:23:53<06:04, 3.06s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7017/7135 [6:23:56<06:08, 3.12s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7018/7135 [6:24:00<06:35, 3.38s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7019/7135 [6:24:03<06:10, 3.20s/it]
98%|████████████████████████████████████████████████████████████████████████████▋ | 7020/7135 [6:24:05<05:58, 3.12s/it]
{'loss': 0.8067, 'grad_norm': 3.453125, 'learning_rate': 3.3535162504366726e-09, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 499.08, 'epoch': 9.83}
98%|████████████████████████████████████████████████████████████████████████████▋ | 7020/7135 [6:24:05<05:58, 3.12s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7021/7135 [6:24:08<05:50, 3.08s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7022/7135 [6:24:11<05:43, 3.04s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7023/7135 [6:24:15<06:00, 3.22s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7024/7135 [6:24:18<05:58, 3.23s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7025/7135 [6:24:21<05:48, 3.16s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7026/7135 [6:24:25<05:49, 3.21s/it]
98%|████████████████████████████████████████████████████████████████████████████▊ | 7027/7135 [6:24:28<05:43, 3.18s/it]
99%|████████████████████████████████████████████████████████████████████████████▊ | 7028/7135 [6:24:31<05:39, 3.17s/it]
99%|████████████████████████████████████████████████████████████████████████████▊ | 7029/7135 [6:24:34<05:30, 3.12s/it]
99%|████████████████████████████████████████████████████████████████████████████▊ | 7030/7135 [6:24:37<05:19, 3.04s/it]
{'loss': 0.8257, 'grad_norm': 5.0, 'learning_rate': 2.8003491975772677e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.45, 'epoch': 9.85}
99%|████████████████████████████████████████████████████████████████████████████▊ | 7030/7135 [6:24:37<05:19, 3.04s/it]
99%|████████████████████████████████████████████████████████████████████████████▊ | 7031/7135 [6:24:40<05:23, 3.11s/it]
99%|████████████████████████████████████████████████████████████████████████████▊ | 7032/7135 [6:24:43<05:29, 3.20s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7033/7135 [6:24:46<05:16, 3.10s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7034/7135 [6:24:49<05:07, 3.04s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7035/7135 [6:24:52<05:01, 3.02s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7036/7135 [6:24:55<05:03, 3.06s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7037/7135 [6:24:58<04:49, 2.95s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7038/7135 [6:25:02<05:09, 3.19s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7039/7135 [6:25:05<04:56, 3.09s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7040/7135 [6:25:08<04:54, 3.10s/it]
{'loss': 0.6976, 'grad_norm': 5.34375, 'learning_rate': 2.2969815418946716e-09, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.53, 'epoch': 9.86}
99%|████████████████████████████████████████████████████████████████████████████▉ | 7040/7135 [6:25:08<04:54, 3.10s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7041/7135 [6:25:11<04:52, 3.12s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7042/7135 [6:25:15<05:07, 3.30s/it]
99%|████████████████████████████████████████████████████████████████████████████▉ | 7043/7135 [6:25:18<05:00, 3.26s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7044/7135 [6:25:21<05:00, 3.30s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7045/7135 [6:25:25<04:59, 3.33s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7046/7135 [6:25:28<04:49, 3.26s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7047/7135 [6:25:31<04:49, 3.30s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7048/7135 [6:25:34<04:46, 3.29s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7049/7135 [6:25:37<04:36, 3.22s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7050/7135 [6:25:41<04:36, 3.25s/it]
{'loss': 0.8155, 'grad_norm': 5.0, 'learning_rate': 1.843423321596094e-09, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 424.94, 'epoch': 9.87}
99%|█████████████████████████████████████████████████████████████████████████████ | 7050/7135 [6:25:41<04:36, 3.25s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7051/7135 [6:25:44<04:29, 3.21s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7052/7135 [6:25:47<04:35, 3.31s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7053/7135 [6:25:51<04:27, 3.26s/it]
99%|█████████████████████████████████████████████████████████████████████████████ | 7054/7135 [6:25:54<04:24, 3.26s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7055/7135 [6:25:57<04:28, 3.35s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7056/7135 [6:26:00<04:12, 3.19s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7057/7135 [6:26:03<03:58, 3.06s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7058/7135 [6:26:06<04:02, 3.15s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7059/7135 [6:26:10<04:01, 3.18s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7060/7135 [6:26:13<04:15, 3.41s/it]
{'loss': 0.6488, 'grad_norm': 5.53125, 'learning_rate': 1.4396835815827515e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 302.32, 'epoch': 9.89}
99%|█████████████████████████████████████████████████████████████████████████████▏| 7060/7135 [6:26:14<04:15, 3.41s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7061/7135 [6:26:16<03:56, 3.20s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7062/7135 [6:26:19<03:49, 3.15s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7063/7135 [6:26:23<03:58, 3.31s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7064/7135 [6:26:26<03:51, 3.26s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7065/7135 [6:26:29<03:40, 3.15s/it]
99%|█████████████████████████████████████████████████████████████████████████████▏| 7066/7135 [6:26:32<03:38, 3.17s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7067/7135 [6:26:35<03:37, 3.20s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7068/7135 [6:26:39<03:40, 3.29s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7069/7135 [6:26:43<03:45, 3.42s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7070/7135 [6:26:46<03:42, 3.43s/it]
{'loss': 0.9261, 'grad_norm': 4.78125, 'learning_rate': 1.085770373271955e-09, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 373.91, 'epoch': 9.9}
99%|█████████████████████████████████████████████████████████████████████████████▎| 7070/7135 [6:26:46<03:42, 3.43s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7071/7135 [6:26:49<03:31, 3.31s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7072/7135 [6:26:52<03:14, 3.08s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7073/7135 [6:26:55<03:12, 3.11s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7074/7135 [6:26:58<03:02, 2.99s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7075/7135 [6:27:01<03:05, 3.10s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7076/7135 [6:27:04<03:07, 3.17s/it]
99%|█████████████████████████████████████████████████████████████████████████████▎| 7077/7135 [6:27:07<03:02, 3.15s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7078/7135 [6:27:10<02:54, 3.06s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7079/7135 [6:27:14<02:58, 3.18s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7080/7135 [6:27:17<02:52, 3.14s/it]
{'loss': 0.6988, 'grad_norm': 4.40625, 'learning_rate': 7.816907544352936e-10, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 410.96, 'epoch': 9.92}
99%|█████████████████████████████████████████████████████████████████████████████▍| 7080/7135 [6:27:17<02:52, 3.14s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7081/7135 [6:27:20<02:46, 3.09s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7082/7135 [6:27:23<02:50, 3.21s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7083/7135 [6:27:27<02:53, 3.35s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7084/7135 [6:27:30<02:48, 3.30s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7085/7135 [6:27:33<02:46, 3.33s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7086/7135 [6:27:37<02:42, 3.31s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7087/7135 [6:27:40<02:34, 3.22s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7088/7135 [6:27:43<02:27, 3.13s/it]
99%|█████████████████████████████████████████████████████████████████████████████▍| 7089/7135 [6:27:46<02:21, 3.07s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7090/7135 [6:27:49<02:17, 3.06s/it]
{'loss': 0.7655, 'grad_norm': 5.8125, 'learning_rate': 5.274507890576375e-10, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 444.02, 'epoch': 9.93}
99%|█████████████████████████████████████████████████████████████████████████████▌| 7090/7135 [6:27:49<02:17, 3.06s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7091/7135 [6:27:52<02:19, 3.18s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7092/7135 [6:27:55<02:19, 3.25s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7093/7135 [6:27:59<02:18, 3.30s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7094/7135 [6:28:02<02:17, 3.35s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7095/7135 [6:28:05<02:11, 3.28s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7096/7135 [6:28:08<02:03, 3.16s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7097/7135 [6:28:12<02:03, 3.25s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7098/7135 [6:28:15<01:56, 3.15s/it]
99%|█████████████████████████████████████████████████████████████████████████████▌| 7099/7135 [6:28:18<01:52, 3.11s/it]
100%|█████████████████████████████████████████████████████████████████████████████▌| 7100/7135 [6:28:21<01:49, 3.13s/it]
{'loss': 0.7141, 'grad_norm': 4.59375, 'learning_rate': 3.2305554721723253e-10, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.98, 'epoch': 9.94}
100%|█████████████████████████████████████████████████████████████████████████████▌| 7100/7135 [6:28:21<01:49, 3.13s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7101/7135 [6:28:24<01:40, 2.97s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7102/7135 [6:28:26<01:36, 2.94s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7103/7135 [6:28:29<01:35, 2.98s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7104/7135 [6:28:33<01:34, 3.05s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7105/7135 [6:28:36<01:36, 3.23s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7106/7135 [6:28:40<01:33, 3.22s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7107/7135 [6:28:43<01:32, 3.31s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7108/7135 [6:28:46<01:26, 3.21s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7109/7135 [6:28:50<01:26, 3.34s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7110/7135 [6:28:53<01:19, 3.19s/it]
{'loss': 0.6343, 'grad_norm': 5.96875, 'learning_rate': 1.6850910498383833e-10, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 451.66, 'epoch': 9.96}
100%|█████████████████████████████████████████████████████████████████████████████▋| 7110/7135 [6:28:53<01:19, 3.19s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7111/7135 [6:28:56<01:16, 3.18s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 7112/7135 [6:28:59<01:12, 3.14s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7113/7135 [6:29:02<01:10, 3.19s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7114/7135 [6:29:05<01:07, 3.21s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7115/7135 [6:29:08<01:03, 3.19s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7116/7135 [6:29:12<01:00, 3.18s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7117/7135 [6:29:15<00:57, 3.17s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7118/7135 [6:29:18<00:55, 3.25s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7119/7135 [6:29:21<00:49, 3.12s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7120/7135 [6:29:24<00:47, 3.13s/it]
{'loss': 0.7654, 'grad_norm': 5.09375, 'learning_rate': 6.381454433712631e-11, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 438.21, 'epoch': 9.97}
100%|█████████████████████████████████████████████████████████████████████████████▊| 7120/7135 [6:29:24<00:47, 3.13s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7121/7135 [6:29:27<00:44, 3.15s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7122/7135 [6:29:31<00:41, 3.20s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 7123/7135 [6:29:34<00:39, 3.31s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7124/7135 [6:29:37<00:34, 3.17s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7125/7135 [6:29:40<00:31, 3.13s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7126/7135 [6:29:43<00:27, 3.04s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7127/7135 [6:29:46<00:24, 3.03s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7128/7135 [6:29:49<00:21, 3.07s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7129/7135 [6:29:52<00:17, 2.93s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7130/7135 [6:29:55<00:14, 2.95s/it]
{'loss': 0.7463, 'grad_norm': 4.625, 'learning_rate': 8.973953106727885e-12, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.29, 'epoch': 9.99}
100%|█████████████████████████████████████████████████████████████████████████████▉| 7130/7135 [6:29:55<00:14, 2.95s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7131/7135 [6:29:58<00:11, 2.94s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7132/7135 [6:30:00<00:08, 2.89s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7133/7135 [6:30:04<00:06, 3.10s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 7134/7135 [6:30:07<00:03, 3.15s/it]
100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:30:10<00:00, 3.00s/it][2025-12-23 20:54:16,064] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-7135
{'train_runtime': 23471.009, 'train_samples_per_second': 9.728, 'train_steps_per_second': 0.304, 'train_loss': 0.775560412978324, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'epoch': 9.99}
100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:31:11<00:00, 3.00s/it]
100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:31:11<00:00, 3.29s/it]
[2025-12-23 20:55:16,884] [INFO] [axolotl.train.save_trained_model:218] [PID:5064] Training completed! Saving trained model to ./outputs/qwen3-4b-instruct-abd-full-train.
[2025-12-23 20:55:39,424] [INFO] [axolotl.train.save_trained_model:336] [PID:5064] Model successfully saved to ./outputs/qwen3-4b-instruct-abd-full-train