Training in progress, step 20

Browse files

Files changed (5) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
args.json +8 -8
logging.jsonl +29 -155
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "gate_proj",
-    "o_proj",
-    "down_proj",
     "up_proj",
     "v_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "up_proj",
     "v_proj",
+    "gate_proj",
+    "q_proj",
+    "o_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2251e76dd114313d9bbbf105fb9510c108c8f9245860cc8af18f7538668ff99e
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:476ff9488388d890542a8239606a2b07fce86d8dd77389da07ebd947de090c2c
 size 13254157312

args.json CHANGED Viewed

@@ -11,7 +11,7 @@
   "local_repo_path": null,
   "template": "llama3_2",
   "system": "",
-  "max_length": 22000,
   "truncation_strategy": "left",
   "max_pixels": null,
   "tools_prompt": "react_en",
@@ -75,7 +75,7 @@
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
-  "output_dir": "/root/dataDisk/output/v53-20250310-062732",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
@@ -86,7 +86,7 @@
   "per_device_eval_batch_size": 1,
   "per_gpu_train_batch_size": null,
   "per_gpu_eval_batch_size": null,
-  "gradient_accumulation_steps": 1,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
   "torch_empty_cache_steps": null,
@@ -105,7 +105,7 @@
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
-  "logging_dir": "/root/dataDisk/output/v53-20250310-062732/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
@@ -289,7 +289,7 @@
   "vera_d_initial": 0.1,
   "adapter_act": "gelu",
   "adapter_length": 128,
-  "use_galore": false,
   "galore_target_modules": null,
   "galore_rank": 128,
   "galore_update_proj_gap": 50,
@@ -339,7 +339,7 @@
   "lazy_tokenize": false,
   "external_plugins": [],
   "loss_type": null,
-  "optimizer": null,
   "metric": null,
   "acc_strategy": "token",
   "rank": 0,
@@ -347,8 +347,8 @@
   "local_world_size": 8,
   "model_suffix": "llama-base",
   "model_info": "ModelInfo(model_type='llama3_2', model_dir='/root/highspeedstorage/ft-volume/llama-base', torch_dtype=torch.bfloat16, max_model_len=131072, quant_method=None, quant_bits=None, rope_scaling={'factor': 8.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, config=None, task_type='causal_lm', num_labels=None)",
-  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7f8d0252f760>, model_arch='llama', architectures=['LlamaForCausalLM'], additional_saved_files=[], torch_dtype=None, is_multimodal=False, is_reward=False, task_type=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
   "model_dir": "/root/highspeedstorage/ft-volume/llama-base",
   "hub": "<class 'swift.hub.hub.HFHub'>",
-  "training_args": "Seq2SeqTrainingArguments(output_dir='/root/dataDisk/output/v53-20250310-062732', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=1, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=1.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.1, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/root/dataDisk/output/v53-20250310-062732/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/root/dataDisk/output/v53-20250310-062732', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 3, 'offload_optimizer': {'device': 'cpu', 'pin_memory': True}, 'offload_param': {'device': 'cpu', 'pin_memory': True}, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1000000000.0, 'reduce_bucket_size': 'auto', 'stage3_prefetch_bucket_size': 'auto', 'stage3_param_persistence_threshold': 'auto', 'stage3_max_live_parameters': 1000000000.0, 'stage3_max_reuse_distance': 1000000000.0, 'stage3_gather_16bit_weights_on_model_save': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, is_encoder_decoder=False, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora', optimizer=None, galore_config=None)"
 }

   "local_repo_path": null,
   "template": "llama3_2",
   "system": "",
+  "max_length": 32000,
   "truncation_strategy": "left",
   "max_pixels": null,
   "tools_prompt": "react_en",
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
+  "output_dir": "/root/dataDisk/output/v59-20250311-095245",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
   "per_device_eval_batch_size": 1,
   "per_gpu_train_batch_size": null,
   "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
   "torch_empty_cache_steps": null,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
+  "logging_dir": "/root/dataDisk/output/v59-20250311-095245/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
   "vera_d_initial": 0.1,
   "adapter_act": "gelu",
   "adapter_length": 128,
+  "use_galore": true,
   "galore_target_modules": null,
   "galore_rank": 128,
   "galore_update_proj_gap": 50,
   "lazy_tokenize": false,
   "external_plugins": [],
   "loss_type": null,
+  "optimizer": "galore",
   "metric": null,
   "acc_strategy": "token",
   "rank": 0,
   "local_world_size": 8,
   "model_suffix": "llama-base",
   "model_info": "ModelInfo(model_type='llama3_2', model_dir='/root/highspeedstorage/ft-volume/llama-base', torch_dtype=torch.bfloat16, max_model_len=131072, quant_method=None, quant_bits=None, rope_scaling={'factor': 8.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7f6af4ea3760>, model_arch='llama', architectures=['LlamaForCausalLM'], additional_saved_files=[], torch_dtype=None, is_multimodal=False, is_reward=False, task_type=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
   "model_dir": "/root/highspeedstorage/ft-volume/llama-base",
   "hub": "<class 'swift.hub.hub.HFHub'>",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/root/dataDisk/output/v59-20250311-095245', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=1.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.1, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/root/dataDisk/output/v59-20250311-095245/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/root/dataDisk/output/v59-20250311-095245', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 3, 'offload_optimizer': {'device': 'cpu', 'pin_memory': True}, 'offload_param': {'device': 'cpu', 'pin_memory': True}, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1000000000.0, 'reduce_bucket_size': 'auto', 'stage3_prefetch_bucket_size': 'auto', 'stage3_param_persistence_threshold': 'auto', 'stage3_max_live_parameters': 1000000000.0, 'stage3_max_reuse_distance': 1000000000.0, 'stage3_gather_16bit_weights_on_model_save': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, is_encoder_decoder=False, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora', optimizer='galore', galore_config=None)"
 }

logging.jsonl CHANGED Viewed

@@ -1,155 +1,29 @@
-{"loss": 1.10846329, "token_acc": 0.76005025, "grad_norm": 16.77027702, "learning_rate": 5e-08, "memory(GiB)": 29.76, "train_speed(iter/s)": 0.020907, "epoch": 0.00053505, "global_step/max_steps": "1/1869", "percentage": "0.05%", "elapsed_time": "22s", "remaining_time": "11h 50m 24s"}
-{"loss": 1.12982225, "token_acc": 0.68363636, "grad_norm": 21.60894012, "learning_rate": 1.1e-07, "memory(GiB)": 36.2, "train_speed(iter/s)": 0.026755, "epoch": 0.00107009, "global_step/max_steps": "2/1869", "percentage": "0.11%", "elapsed_time": "49s", "remaining_time": "12h 53m 52s"}
-{"loss": 1.07696795, "token_acc": 0.72697003, "grad_norm": 14.1061182, "learning_rate": 1.6e-07, "memory(GiB)": 36.2, "train_speed(iter/s)": 0.030209, "epoch": 0.00160514, "global_step/max_steps": "3/1869", "percentage": "0.16%", "elapsed_time": "1m 14s", "remaining_time": "12h 50m 11s"}
-{"loss": 1.1647048, "token_acc": 0.72707889, "grad_norm": 17.34974098, "learning_rate": 2.1e-07, "memory(GiB)": 36.2, "train_speed(iter/s)": 0.032071, "epoch": 0.00214018, "global_step/max_steps": "4/1869", "percentage": "0.21%", "elapsed_time": "1m 39s", "remaining_time": "12h 54m 49s"}
-{"loss": 1.03058517, "token_acc": 0.78461538, "grad_norm": 13.97839832, "learning_rate": 2.7e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.033244, "epoch": 0.00267523, "global_step/max_steps": "5/1869", "percentage": "0.27%", "elapsed_time": "2m 5s", "remaining_time": "12h 59m 5s"}
-{"loss": 1.07988381, "token_acc": 0.75729927, "grad_norm": 14.92414665, "learning_rate": 3.2e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.03754, "epoch": 0.00321027, "global_step/max_steps": "6/1869", "percentage": "0.32%", "elapsed_time": "2m 14s", "remaining_time": "11h 37m 39s"}
-{"loss": 1.02987361, "token_acc": 0.68942548, "grad_norm": 9.45815849, "learning_rate": 3.7e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.042107, "epoch": 0.00374532, "global_step/max_steps": "7/1869", "percentage": "0.37%", "elapsed_time": "2m 21s", "remaining_time": "10h 26m 6s"}
-{"loss": 1.07785511, "token_acc": 0.7925, "grad_norm": 10.87460232, "learning_rate": 4.3e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.046302, "epoch": 0.00428036, "global_step/max_steps": "8/1869", "percentage": "0.43%", "elapsed_time": "2m 27s", "remaining_time": "9h 32m 53s"}
-{"loss": 1.01309848, "token_acc": 0.78978622, "grad_norm": 10.11265278, "learning_rate": 4.8e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.049079, "epoch": 0.00481541, "global_step/max_steps": "9/1869", "percentage": "0.48%", "elapsed_time": "2m 38s", "remaining_time": "9h 5m 28s"}
-{"loss": 0.97182792, "token_acc": 0.77007299, "grad_norm": 9.2328577, "learning_rate": 5.3e-07, "memory(GiB)": 38.16, "train_speed(iter/s)": 0.052715, "epoch": 0.00535045, "global_step/max_steps": "10/1869", "percentage": "0.54%", "elapsed_time": "2m 44s", "remaining_time": "8h 30m 14s"}
-{"eval_loss": 0.93822712, "eval_token_acc": 0.77502154, "eval_runtime": 230.5467, "eval_samples_per_second": 2.004, "eval_steps_per_second": 0.252, "epoch": 0.00535045, "global_step/max_steps": "10/1869", "percentage": "0.54%", "elapsed_time": "6m 35s", "remaining_time": "20h 24m 33s"}
-{"loss": 0.8288908, "token_acc": 0.77817543, "grad_norm": 6.67973661, "learning_rate": 5.9e-07, "memory(GiB)": 112.78, "train_speed(iter/s)": 0.022076, "epoch": 0.0058855, "global_step/max_steps": "11/1869", "percentage": "0.59%", "elapsed_time": "7m 53s", "remaining_time": "22h 12m 20s"}
-{"loss": 0.86488545, "token_acc": 0.74363057, "grad_norm": 10.70631313, "learning_rate": 6.4e-07, "memory(GiB)": 112.78, "train_speed(iter/s)": 0.022881, "epoch": 0.00642055, "global_step/max_steps": "12/1869", "percentage": "0.64%", "elapsed_time": "8m 19s", "remaining_time": "21h 28m 6s"}
-{"loss": 1.00706434, "token_acc": 0.72903226, "grad_norm": 9.83619118, "learning_rate": 7e-07, "memory(GiB)": 118.65, "train_speed(iter/s)": 0.024344, "epoch": 0.00695559, "global_step/max_steps": "13/1869", "percentage": "0.70%", "elapsed_time": "8m 28s", "remaining_time": "20h 11m 8s"}
-{"loss": 0.74669749, "token_acc": 0.83842239, "grad_norm": 5.23266602, "learning_rate": 7.5e-07, "memory(GiB)": 118.65, "train_speed(iter/s)": 0.024775, "epoch": 0.00749064, "global_step/max_steps": "14/1869", "percentage": "0.75%", "elapsed_time": "9m 0s", "remaining_time": "19h 52m 39s"}
-{"loss": 0.8471846, "token_acc": 0.78861789, "grad_norm": 6.47993088, "learning_rate": 8e-07, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025013, "epoch": 0.00802568, "global_step/max_steps": "15/1869", "percentage": "0.80%", "elapsed_time": "9m 34s", "remaining_time": "19h 43m 49s"}
-{"loss": 0.77965558, "token_acc": 0.81611208, "grad_norm": 5.04291487, "learning_rate": 8.6e-07, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026421, "epoch": 0.00856073, "global_step/max_steps": "16/1869", "percentage": "0.86%", "elapsed_time": "9m 40s", "remaining_time": "18h 40m 36s"}
-{"loss": 0.80958372, "token_acc": 0.75545852, "grad_norm": 5.18472624, "learning_rate": 9.1e-07, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.027765, "epoch": 0.00909577, "global_step/max_steps": "17/1869", "percentage": "0.91%", "elapsed_time": "9m 47s", "remaining_time": "17h 46m 18s"}
-{"loss": 0.70913279, "token_acc": 0.85760518, "grad_norm": 5.61203241, "learning_rate": 9.6e-07, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.029081, "epoch": 0.00963082, "global_step/max_steps": "18/1869", "percentage": "0.96%", "elapsed_time": "9m 53s", "remaining_time": "16h 57m 58s"}
-{"loss": 0.72859496, "token_acc": 0.80189673, "grad_norm": 9.47189426, "learning_rate": 1.02e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.030258, "epoch": 0.01016586, "global_step/max_steps": "19/1869", "percentage": "1.02%", "elapsed_time": "10m 2s", "remaining_time": "16h 18m 25s"}
-{"loss": 0.73913312, "token_acc": 0.73609314, "grad_norm": 4.01692152, "learning_rate": 1.07e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.030973, "epoch": 0.01070091, "global_step/max_steps": "20/1869", "percentage": "1.07%", "elapsed_time": "10m 20s", "remaining_time": "15h 56m 23s"}
-{"eval_loss": 0.73671097, "eval_token_acc": 0.79061684, "eval_runtime": 230.7649, "eval_samples_per_second": 2.002, "eval_steps_per_second": 0.251, "epoch": 0.01070091, "global_step/max_steps": "20/1869", "percentage": "1.07%", "elapsed_time": "14m 11s", "remaining_time": "21h 51m 58s"}
-{"loss": 0.71632719, "token_acc": 0.79510949, "grad_norm": 5.31815338, "learning_rate": 1.12e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.022449, "epoch": 0.01123596, "global_step/max_steps": "21/1869", "percentage": "1.12%", "elapsed_time": "15m 10s", "remaining_time": "22h 15m 19s"}
-{"loss": 0.75135165, "token_acc": 0.77522936, "grad_norm": 4.08145428, "learning_rate": 1.18e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.022744, "epoch": 0.011771, "global_step/max_steps": "22/1869", "percentage": "1.18%", "elapsed_time": "15m 42s", "remaining_time": "21h 58m 26s"}
-{"loss": 0.70510459, "token_acc": 0.78542155, "grad_norm": 3.34494901, "learning_rate": 1.23e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023061, "epoch": 0.01230605, "global_step/max_steps": "23/1869", "percentage": "1.23%", "elapsed_time": "16m 12s", "remaining_time": "21h 40m 41s"}
-{"loss": 0.58708155, "token_acc": 0.89411765, "grad_norm": 4.94634724, "learning_rate": 1.28e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023844, "epoch": 0.01284109, "global_step/max_steps": "24/1869", "percentage": "1.28%", "elapsed_time": "16m 21s", "remaining_time": "20h 57m 34s"}
-{"loss": 0.69591022, "token_acc": 0.80592105, "grad_norm": 5.5039525, "learning_rate": 1.34e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024497, "epoch": 0.01337614, "global_step/max_steps": "25/1869", "percentage": "1.34%", "elapsed_time": "16m 35s", "remaining_time": "20h 23m 49s"}
-{"loss": 0.67804903, "token_acc": 0.81148564, "grad_norm": 3.53921056, "learning_rate": 1.39e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025329, "epoch": 0.01391118, "global_step/max_steps": "26/1869", "percentage": "1.39%", "elapsed_time": "16m 41s", "remaining_time": "19h 43m 9s"}
-{"loss": 0.59909678, "token_acc": 0.84777518, "grad_norm": 2.86513925, "learning_rate": 1.44e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02614, "epoch": 0.01444623, "global_step/max_steps": "27/1869", "percentage": "1.44%", "elapsed_time": "16m 47s", "remaining_time": "19h 6m 0s"}
-{"loss": 0.61625493, "token_acc": 0.87399236, "grad_norm": 4.2735076, "learning_rate": 1.5e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026501, "epoch": 0.01498127, "global_step/max_steps": "28/1869", "percentage": "1.50%", "elapsed_time": "17m 11s", "remaining_time": "18h 50m 24s"}
-{"loss": 0.62591362, "token_acc": 0.79508197, "grad_norm": 3.5549407, "learning_rate": 1.55e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.027282, "epoch": 0.01551632, "global_step/max_steps": "29/1869", "percentage": "1.55%", "elapsed_time": "17m 17s", "remaining_time": "18h 17m 37s"}
-{"loss": 0.58011794, "token_acc": 0.79526227, "grad_norm": 3.10110259, "learning_rate": 1.6e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.028066, "epoch": 0.01605136, "global_step/max_steps": "30/1869", "percentage": "1.61%", "elapsed_time": "17m 23s", "remaining_time": "17h 46m 30s"}
-{"eval_loss": 0.65177089, "eval_token_acc": 0.79980309, "eval_runtime": 230.3026, "eval_samples_per_second": 2.006, "eval_steps_per_second": 0.252, "epoch": 0.01605136, "global_step/max_steps": "30/1869", "percentage": "1.61%", "elapsed_time": "21m 14s", "remaining_time": "21h 41m 47s"}
-{"loss": 0.67728925, "token_acc": 0.8055818, "grad_norm": 3.54144835, "learning_rate": 1.66e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.022548, "epoch": 0.01658641, "global_step/max_steps": "31/1869", "percentage": "1.66%", "elapsed_time": "22m 29s", "remaining_time": "22h 13m 53s"}
-{"loss": 0.64033484, "token_acc": 0.80456949, "grad_norm": 3.63276386, "learning_rate": 1.71e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.022864, "epoch": 0.01712146, "global_step/max_steps": "32/1869", "percentage": "1.71%", "elapsed_time": "22m 54s", "remaining_time": "21h 55m 9s"}
-{"loss": 0.59276545, "token_acc": 0.81354051, "grad_norm": 3.55099034, "learning_rate": 1.76e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023474, "epoch": 0.0176565, "global_step/max_steps": "33/1869", "percentage": "1.77%", "elapsed_time": "23m 0s", "remaining_time": "21h 20m 22s"}
-{"loss": 0.68321669, "token_acc": 0.77755906, "grad_norm": 3.37234855, "learning_rate": 1.82e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024078, "epoch": 0.01819155, "global_step/max_steps": "34/1869", "percentage": "1.82%", "elapsed_time": "23m 7s", "remaining_time": "20h 47m 41s"}
-{"loss": 0.66526508, "token_acc": 0.79340278, "grad_norm": 3.60016561, "learning_rate": 1.87e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024627, "epoch": 0.01872659, "global_step/max_steps": "35/1869", "percentage": "1.87%", "elapsed_time": "23m 16s", "remaining_time": "20h 19m 21s"}
-{"loss": 0.69026184, "token_acc": 0.85021097, "grad_norm": 3.26779056, "learning_rate": 1.93e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02513, "epoch": 0.01926164, "global_step/max_steps": "36/1869", "percentage": "1.93%", "elapsed_time": "23m 27s", "remaining_time": "19h 54m 28s"}
-{"loss": 0.52923977, "token_acc": 0.81941748, "grad_norm": 2.91604924, "learning_rate": 1.98e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025709, "epoch": 0.01979668, "global_step/max_steps": "37/1869", "percentage": "1.98%", "elapsed_time": "23m 34s", "remaining_time": "19h 26m 59s"}
-{"loss": 0.59180516, "token_acc": 0.89078156, "grad_norm": 3.15961385, "learning_rate": 2.03e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026141, "epoch": 0.02033173, "global_step/max_steps": "38/1869", "percentage": "2.03%", "elapsed_time": "23m 48s", "remaining_time": "19h 7m 18s"}
-{"loss": 0.63943875, "token_acc": 0.75691134, "grad_norm": 4.54194307, "learning_rate": 2.09e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026649, "epoch": 0.02086677, "global_step/max_steps": "39/1869", "percentage": "2.09%", "elapsed_time": "23m 58s", "remaining_time": "18h 44m 55s"}
-{"loss": 0.57443136, "token_acc": 0.75711382, "grad_norm": 3.56686258, "learning_rate": 2.14e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.027218, "epoch": 0.02140182, "global_step/max_steps": "40/1869", "percentage": "2.14%", "elapsed_time": "24m 4s", "remaining_time": "18h 20m 53s"}
-{"eval_loss": 0.61997586, "eval_token_acc": 0.80398873, "eval_runtime": 230.319, "eval_samples_per_second": 2.006, "eval_steps_per_second": 0.252, "epoch": 0.02140182, "global_step/max_steps": "40/1869", "percentage": "2.14%", "elapsed_time": "27m 54s", "remaining_time": "21h 16m 25s"}
-{"loss": 0.5590893, "token_acc": 0.80868182, "grad_norm": 3.27547669, "learning_rate": 2.19e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023291, "epoch": 0.02193686, "global_step/max_steps": "41/1869", "percentage": "2.19%", "elapsed_time": "28m 55s", "remaining_time": "21h 29m 31s"}
-{"loss": 0.58981824, "token_acc": 0.77457265, "grad_norm": 3.15756106, "learning_rate": 2.25e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023774, "epoch": 0.02247191, "global_step/max_steps": "42/1869", "percentage": "2.25%", "elapsed_time": "29m 1s", "remaining_time": "21h 2m 39s"}
-{"loss": 0.57524711, "token_acc": 0.83855422, "grad_norm": 4.17729044, "learning_rate": 2.3e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02426, "epoch": 0.02300696, "global_step/max_steps": "43/1869", "percentage": "2.30%", "elapsed_time": "29m 7s", "remaining_time": "20h 36m 44s"}
-{"loss": 0.63644284, "token_acc": 0.81646274, "grad_norm": 2.62428689, "learning_rate": 2.35e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024434, "epoch": 0.023542, "global_step/max_steps": "44/1869", "percentage": "2.35%", "elapsed_time": "29m 35s", "remaining_time": "20h 27m 32s"}
-{"loss": 0.64309716, "token_acc": 0.83072917, "grad_norm": 2.948915, "learning_rate": 2.41e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024905, "epoch": 0.02407705, "global_step/max_steps": "45/1869", "percentage": "2.41%", "elapsed_time": "29m 41s", "remaining_time": "20h 3m 44s"}
-{"loss": 0.5813536, "token_acc": 0.86121392, "grad_norm": 3.02264547, "learning_rate": 2.46e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025314, "epoch": 0.02461209, "global_step/max_steps": "46/1869", "percentage": "2.46%", "elapsed_time": "29m 52s", "remaining_time": "19h 43m 42s"}
-{"loss": 0.67458242, "token_acc": 0.84415584, "grad_norm": 4.08577394, "learning_rate": 2.51e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025777, "epoch": 0.02514714, "global_step/max_steps": "47/1869", "percentage": "2.51%", "elapsed_time": "29m 58s", "remaining_time": "19h 21m 52s"}
-{"loss": 0.55463028, "token_acc": 0.79433368, "grad_norm": 3.79704332, "learning_rate": 2.57e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02624, "epoch": 0.02568218, "global_step/max_steps": "48/1869", "percentage": "2.57%", "elapsed_time": "30m 4s", "remaining_time": "19h 0m 49s"}
-{"loss": 0.62436664, "token_acc": 0.7584, "grad_norm": 3.25214219, "learning_rate": 2.62e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026392, "epoch": 0.02621723, "global_step/max_steps": "49/1869", "percentage": "2.62%", "elapsed_time": "30m 31s", "remaining_time": "18h 53m 49s"}
-{"loss": 0.53918386, "token_acc": 0.90425532, "grad_norm": 4.26714802, "learning_rate": 2.67e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026844, "epoch": 0.02675227, "global_step/max_steps": "50/1869", "percentage": "2.68%", "elapsed_time": "30m 37s", "remaining_time": "18h 34m 11s"}
-{"eval_loss": 0.60215878, "eval_token_acc": 0.80712147, "eval_runtime": 230.281, "eval_samples_per_second": 2.006, "eval_steps_per_second": 0.252, "epoch": 0.02675227, "global_step/max_steps": "50/1869", "percentage": "2.68%", "elapsed_time": "34m 27s", "remaining_time": "20h 53m 49s"}
-{"loss": 0.51995146, "token_acc": 0.81191565, "grad_norm": 3.53206921, "learning_rate": 2.73e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023724, "epoch": 0.02728732, "global_step/max_steps": "51/1869", "percentage": "2.73%", "elapsed_time": "35m 24s", "remaining_time": "21h 2m 17s"}
-{"loss": 0.58067459, "token_acc": 0.83819629, "grad_norm": 6.21328926, "learning_rate": 2.78e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02381, "epoch": 0.02782236, "global_step/max_steps": "52/1869", "percentage": "2.78%", "elapsed_time": "35m 58s", "remaining_time": "20h 57m 17s"}
-{"loss": 0.64557421, "token_acc": 0.76157407, "grad_norm": 3.65991592, "learning_rate": 2.83e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024202, "epoch": 0.02835741, "global_step/max_steps": "53/1869", "percentage": "2.84%", "elapsed_time": "36m 4s", "remaining_time": "20h 36m 18s"}
-{"loss": 0.51230466, "token_acc": 0.82673797, "grad_norm": 3.01753736, "learning_rate": 2.89e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024517, "epoch": 0.02889246, "global_step/max_steps": "54/1869", "percentage": "2.89%", "elapsed_time": "36m 17s", "remaining_time": "20h 19m 48s"}
-{"loss": 0.48997158, "token_acc": 0.88925803, "grad_norm": 2.5939014, "learning_rate": 2.94e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024898, "epoch": 0.0294275, "global_step/max_steps": "55/1869", "percentage": "2.94%", "elapsed_time": "36m 23s", "remaining_time": "20h 0m 31s"}
-{"loss": 0.55220222, "token_acc": 0.82684825, "grad_norm": 3.10655284, "learning_rate": 2.99e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025282, "epoch": 0.02996255, "global_step/max_steps": "56/1869", "percentage": "3.00%", "elapsed_time": "36m 29s", "remaining_time": "19h 41m 40s"}
-{"loss": 0.59301412, "token_acc": 0.79541446, "grad_norm": 2.94104075, "learning_rate": 3.05e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02563, "epoch": 0.03049759, "global_step/max_steps": "57/1869", "percentage": "3.05%", "elapsed_time": "36m 38s", "remaining_time": "19h 25m 2s"}
-{"loss": 0.56519073, "token_acc": 0.8638985, "grad_norm": 2.9064157, "learning_rate": 3.1e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025796, "epoch": 0.03103264, "global_step/max_steps": "58/1869", "percentage": "3.10%", "elapsed_time": "37m 3s", "remaining_time": "19h 17m 4s"}
-{"loss": 0.53200567, "token_acc": 0.79587405, "grad_norm": 3.22322154, "learning_rate": 3.16e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.026169, "epoch": 0.03156768, "global_step/max_steps": "59/1869", "percentage": "3.16%", "elapsed_time": "37m 9s", "remaining_time": "18h 59m 58s"}
-{"loss": 0.58337617, "token_acc": 0.77966102, "grad_norm": 3.01505756, "learning_rate": 3.21e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02654, "epoch": 0.03210273, "global_step/max_steps": "60/1869", "percentage": "3.21%", "elapsed_time": "37m 15s", "remaining_time": "18h 43m 28s"}
-{"eval_loss": 0.59162891, "eval_token_acc": 0.80901806, "eval_runtime": 230.4998, "eval_samples_per_second": 2.004, "eval_steps_per_second": 0.252, "epoch": 0.03210273, "global_step/max_steps": "60/1869", "percentage": "3.21%", "elapsed_time": "41m 6s", "remaining_time": "20h 39m 17s"}
-{"loss": 0.48333877, "token_acc": 0.81099476, "grad_norm": 3.13191962, "learning_rate": 3.26e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02384, "epoch": 0.03263777, "global_step/max_steps": "61/1869", "percentage": "3.26%", "elapsed_time": "42m 13s", "remaining_time": "20h 51m 36s"}
-{"loss": 0.60811639, "token_acc": 0.83554377, "grad_norm": 3.21621466, "learning_rate": 3.32e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023923, "epoch": 0.03317282, "global_step/max_steps": "62/1869", "percentage": "3.32%", "elapsed_time": "42m 46s", "remaining_time": "20h 46m 45s"}
-{"loss": 0.56866759, "token_acc": 0.85844749, "grad_norm": 3.32019591, "learning_rate": 3.37e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024245, "epoch": 0.03370787, "global_step/max_steps": "63/1869", "percentage": "3.37%", "elapsed_time": "42m 53s", "remaining_time": "20h 29m 32s"}
-{"loss": 0.60677022, "token_acc": 0.85037037, "grad_norm": 3.47439218, "learning_rate": 3.42e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024572, "epoch": 0.03424291, "global_step/max_steps": "64/1869", "percentage": "3.42%", "elapsed_time": "42m 59s", "remaining_time": "20h 12m 32s"}
-{"loss": 0.54550421, "token_acc": 0.87831325, "grad_norm": 4.10164118, "learning_rate": 3.48e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024841, "epoch": 0.03477796, "global_step/max_steps": "65/1869", "percentage": "3.48%", "elapsed_time": "43m 11s", "remaining_time": "19h 58m 48s"}
-{"loss": 0.53837061, "token_acc": 0.73560209, "grad_norm": 3.15438747, "learning_rate": 3.53e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025137, "epoch": 0.035313, "global_step/max_steps": "66/1869", "percentage": "3.53%", "elapsed_time": "43m 20s", "remaining_time": "19h 44m 3s"}
-{"loss": 0.5946157, "token_acc": 0.73014257, "grad_norm": 3.01018405, "learning_rate": 3.58e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025458, "epoch": 0.03584805, "global_step/max_steps": "67/1869", "percentage": "3.58%", "elapsed_time": "43m 26s", "remaining_time": "19h 28m 30s"}
-{"loss": 0.5353893, "token_acc": 0.7915493, "grad_norm": 3.2664516, "learning_rate": 3.64e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.0255, "epoch": 0.03638309, "global_step/max_steps": "68/1869", "percentage": "3.64%", "elapsed_time": "44m 1s", "remaining_time": "19h 26m 4s"}
-{"loss": 0.49811623, "token_acc": 0.80331754, "grad_norm": 3.16521215, "learning_rate": 3.69e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025785, "epoch": 0.03691814, "global_step/max_steps": "69/1869", "percentage": "3.69%", "elapsed_time": "44m 10s", "remaining_time": "19h 12m 34s"}
-{"loss": 0.6232444, "token_acc": 0.84210526, "grad_norm": 3.16659331, "learning_rate": 3.74e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.0261, "epoch": 0.03745318, "global_step/max_steps": "70/1869", "percentage": "3.75%", "elapsed_time": "44m 17s", "remaining_time": "18h 58m 5s"}
-{"eval_loss": 0.58388162, "eval_token_acc": 0.81062614, "eval_runtime": 229.9747, "eval_samples_per_second": 2.009, "eval_steps_per_second": 0.252, "epoch": 0.03745318, "global_step/max_steps": "70/1869", "percentage": "3.75%", "elapsed_time": "48m 7s", "remaining_time": "20h 36m 35s"}
-{"loss": 0.62807226, "token_acc": 0.81581746, "grad_norm": 3.77503753, "learning_rate": 3.8e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023742, "epoch": 0.03798823, "global_step/max_steps": "71/1869", "percentage": "3.80%", "elapsed_time": "49m 25s", "remaining_time": "20h 51m 37s"}
-{"loss": 0.5570327, "token_acc": 0.76814988, "grad_norm": 3.81446433, "learning_rate": 3.85e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024026, "epoch": 0.03852327, "global_step/max_steps": "72/1869", "percentage": "3.85%", "elapsed_time": "49m 31s", "remaining_time": "20h 36m 9s"}
-{"loss": 0.54348046, "token_acc": 0.90006752, "grad_norm": 2.7051847, "learning_rate": 3.9e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02423, "epoch": 0.03905832, "global_step/max_steps": "73/1869", "percentage": "3.91%", "elapsed_time": "49m 47s", "remaining_time": "20h 25m 8s"}
-{"loss": 0.59506869, "token_acc": 0.82584712, "grad_norm": 3.04290962, "learning_rate": 3.96e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024288, "epoch": 0.03959337, "global_step/max_steps": "74/1869", "percentage": "3.96%", "elapsed_time": "50m 21s", "remaining_time": "20h 21m 38s"}
-{"loss": 0.52274609, "token_acc": 0.85326087, "grad_norm": 4.03503895, "learning_rate": 4.01e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024488, "epoch": 0.04012841, "global_step/max_steps": "75/1869", "percentage": "4.01%", "elapsed_time": "50m 37s", "remaining_time": "20h 11m 2s"}
-{"loss": 0.58080888, "token_acc": 0.81431005, "grad_norm": 3.52183199, "learning_rate": 4.06e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024561, "epoch": 0.04066346, "global_step/max_steps": "76/1869", "percentage": "4.07%", "elapsed_time": "51m 9s", "remaining_time": "20h 6m 52s"}
-{"loss": 0.53793788, "token_acc": 0.8178025, "grad_norm": 3.96653628, "learning_rate": 4.12e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024815, "epoch": 0.0411985, "global_step/max_steps": "77/1869", "percentage": "4.12%", "elapsed_time": "51m 17s", "remaining_time": "19h 53m 53s"}
-{"loss": 0.51677012, "token_acc": 0.80407911, "grad_norm": 3.84334373, "learning_rate": 4.17e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024912, "epoch": 0.04173355, "global_step/max_steps": "78/1869", "percentage": "4.17%", "elapsed_time": "51m 45s", "remaining_time": "19h 48m 37s"}
-{"loss": 0.47754866, "token_acc": 0.84130435, "grad_norm": 3.02204871, "learning_rate": 4.22e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025169, "epoch": 0.04226859, "global_step/max_steps": "79/1869", "percentage": "4.23%", "elapsed_time": "51m 53s", "remaining_time": "19h 35m 53s"}
-{"loss": 0.59575975, "token_acc": 0.77586207, "grad_norm": 2.97479558, "learning_rate": 4.28e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.025437, "epoch": 0.04280364, "global_step/max_steps": "80/1869", "percentage": "4.28%", "elapsed_time": "51m 59s", "remaining_time": "19h 22m 49s"}
-{"eval_loss": 0.57795918, "eval_token_acc": 0.81181988, "eval_runtime": 230.2287, "eval_samples_per_second": 2.007, "eval_steps_per_second": 0.252, "epoch": 0.04280364, "global_step/max_steps": "80/1869", "percentage": "4.28%", "elapsed_time": "55m 50s", "remaining_time": "20h 48m 38s"}
-{"loss": 0.48706263, "token_acc": 0.81560641, "grad_norm": 3.3198576, "learning_rate": 4.33e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023465, "epoch": 0.04333868, "global_step/max_steps": "81/1869", "percentage": "4.33%", "elapsed_time": "57m 6s", "remaining_time": "21h 0m 45s"}
-{"loss": 0.62418771, "token_acc": 0.8566879, "grad_norm": 3.29122806, "learning_rate": 4.39e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023659, "epoch": 0.04387373, "global_step/max_steps": "82/1869", "percentage": "4.39%", "elapsed_time": "57m 20s", "remaining_time": "20h 49m 45s"}
-{"loss": 0.61460698, "token_acc": 0.80149813, "grad_norm": 3.44209623, "learning_rate": 4.44e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023735, "epoch": 0.04440877, "global_step/max_steps": "83/1869", "percentage": "4.44%", "elapsed_time": "57m 51s", "remaining_time": "20h 45m 8s"}
-{"loss": 0.70045018, "token_acc": 0.74962064, "grad_norm": 3.83606768, "learning_rate": 4.49e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023947, "epoch": 0.04494382, "global_step/max_steps": "84/1869", "percentage": "4.49%", "elapsed_time": "58m 2s", "remaining_time": "20h 33m 27s"}
-{"loss": 0.58728027, "token_acc": 0.90450644, "grad_norm": 2.8820703, "learning_rate": 4.55e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024034, "epoch": 0.04547887, "global_step/max_steps": "85/1869", "percentage": "4.55%", "elapsed_time": "58m 31s", "remaining_time": "20h 28m 23s"}
-{"loss": 0.62150431, "token_acc": 0.83611533, "grad_norm": 3.53566265, "learning_rate": 4.6e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024086, "epoch": 0.04601391, "global_step/max_steps": "86/1869", "percentage": "4.60%", "elapsed_time": "59m 5s", "remaining_time": "20h 25m 8s"}
-{"loss": 0.53575307, "token_acc": 0.79455103, "grad_norm": 3.14529085, "learning_rate": 4.65e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024135, "epoch": 0.04654896, "global_step/max_steps": "87/1869", "percentage": "4.65%", "elapsed_time": "59m 39s", "remaining_time": "20h 22m 2s"}
-{"loss": 0.6705476, "token_acc": 0.83764706, "grad_norm": 2.86025071, "learning_rate": 4.71e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024345, "epoch": 0.047084, "global_step/max_steps": "88/1869", "percentage": "4.71%", "elapsed_time": "59m 49s", "remaining_time": "20h 10m 49s"}
-{"loss": 0.54670548, "token_acc": 0.87827557, "grad_norm": 3.45245957, "learning_rate": 4.76e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024579, "epoch": 0.04761905, "global_step/max_steps": "89/1869", "percentage": "4.76%", "elapsed_time": "59m 55s", "remaining_time": "19h 58m 39s"}
-{"loss": 0.55477643, "token_acc": 0.84027778, "grad_norm": 2.70059419, "learning_rate": 4.81e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024696, "epoch": 0.04815409, "global_step/max_steps": "90/1869", "percentage": "4.82%", "elapsed_time": "1h 0m 19s", "remaining_time": "19h 52m 22s"}
-{"eval_loss": 0.57087022, "eval_token_acc": 0.81361393, "eval_runtime": 230.2666, "eval_samples_per_second": 2.006, "eval_steps_per_second": 0.252, "epoch": 0.04815409, "global_step/max_steps": "90/1869", "percentage": "4.82%", "elapsed_time": "1h 4m 9s", "remaining_time": "21h 8m 14s"}
-{"loss": 0.53591204, "token_acc": 0.81718168, "grad_norm": 3.41573358, "learning_rate": 4.87e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02315, "epoch": 0.04868914, "global_step/max_steps": "91/1869", "percentage": "4.87%", "elapsed_time": "1h 5m 5s", "remaining_time": "21h 11m 53s"}
-{"loss": 0.57939601, "token_acc": 0.78804348, "grad_norm": 3.22205687, "learning_rate": 4.92e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023368, "epoch": 0.04922418, "global_step/max_steps": "92/1869", "percentage": "4.92%", "elapsed_time": "1h 5m 11s", "remaining_time": "20h 59m 19s"}
-{"loss": 0.57385951, "token_acc": 0.83682771, "grad_norm": 3.16394401, "learning_rate": 4.97e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023586, "epoch": 0.04975923, "global_step/max_steps": "93/1869", "percentage": "4.98%", "elapsed_time": "1h 5m 18s", "remaining_time": "20h 47m 2s"}
-{"loss": 0.5800854, "token_acc": 0.81495872, "grad_norm": 3.31869483, "learning_rate": 5.03e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023762, "epoch": 0.05029428, "global_step/max_steps": "94/1869", "percentage": "5.03%", "elapsed_time": "1h 5m 30s", "remaining_time": "20h 37m 7s"}
-{"loss": 0.51432335, "token_acc": 0.82507289, "grad_norm": 4.43180466, "learning_rate": 5.08e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023978, "epoch": 0.05082932, "global_step/max_steps": "95/1869", "percentage": "5.08%", "elapsed_time": "1h 5m 36s", "remaining_time": "20h 25m 16s"}
-{"loss": 0.55478501, "token_acc": 0.77943615, "grad_norm": 3.0449295, "learning_rate": 5.13e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024069, "epoch": 0.05136437, "global_step/max_steps": "96/1869", "percentage": "5.14%", "elapsed_time": "1h 6m 3s", "remaining_time": "20h 20m 0s"}
-{"loss": 0.62661427, "token_acc": 0.76787955, "grad_norm": 6.60005713, "learning_rate": 5.19e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024282, "epoch": 0.05189941, "global_step/max_steps": "97/1869", "percentage": "5.19%", "elapsed_time": "1h 6m 9s", "remaining_time": "20h 8m 39s"}
-{"loss": 0.63851893, "token_acc": 0.84980237, "grad_norm": 3.27295399, "learning_rate": 5.24e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024495, "epoch": 0.05243446, "global_step/max_steps": "98/1869", "percentage": "5.24%", "elapsed_time": "1h 6m 15s", "remaining_time": "19h 57m 29s"}
-{"loss": 0.67096293, "token_acc": 0.7480315, "grad_norm": 3.94529891, "learning_rate": 5.29e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024535, "epoch": 0.0529695, "global_step/max_steps": "99/1869", "percentage": "5.30%", "elapsed_time": "1h 6m 50s", "remaining_time": "19h 54m 53s"}
-{"loss": 0.63782001, "token_acc": 0.81664099, "grad_norm": 3.11050892, "learning_rate": 5.35e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024681, "epoch": 0.05350455, "global_step/max_steps": "100/1869", "percentage": "5.35%", "elapsed_time": "1h 7m 6s", "remaining_time": "19h 47m 11s"}
-{"eval_loss": 0.56706554, "eval_token_acc": 0.81415815, "eval_runtime": 230.1885, "eval_samples_per_second": 2.007, "eval_steps_per_second": 0.252, "epoch": 0.05350455, "global_step/max_steps": "100/1869", "percentage": "5.35%", "elapsed_time": "1h 10m 56s", "remaining_time": "20h 55m 3s"}
-{"loss": 0.59655845, "token_acc": 0.81839449, "grad_norm": 3.05500865, "learning_rate": 5.4e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023317, "epoch": 0.05403959, "global_step/max_steps": "101/1869", "percentage": "5.40%", "elapsed_time": "1h 11m 46s", "remaining_time": "20h 56m 25s"}
-{"loss": 0.59819782, "token_acc": 0.80311891, "grad_norm": 4.83508968, "learning_rate": 5.45e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023427, "epoch": 0.05457464, "global_step/max_steps": "102/1869", "percentage": "5.46%", "elapsed_time": "1h 12m 8s", "remaining_time": "20h 49m 51s"}
-{"loss": 0.5983628, "token_acc": 0.84854451, "grad_norm": 3.01287246, "learning_rate": 5.51e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023539, "epoch": 0.05510968, "global_step/max_steps": "103/1869", "percentage": "5.51%", "elapsed_time": "1h 12m 30s", "remaining_time": "20h 43m 17s"}
-{"loss": 0.5585193, "token_acc": 0.81392694, "grad_norm": 3.496773, "learning_rate": 5.56e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023733, "epoch": 0.05564473, "global_step/max_steps": "104/1869", "percentage": "5.56%", "elapsed_time": "1h 12m 37s", "remaining_time": "20h 32m 24s"}
-{"loss": 0.58505946, "token_acc": 0.87814313, "grad_norm": 3.46284056, "learning_rate": 5.61e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023926, "epoch": 0.05617978, "global_step/max_steps": "105/1869", "percentage": "5.62%", "elapsed_time": "1h 12m 43s", "remaining_time": "20h 21m 47s"}
-{"loss": 0.54000103, "token_acc": 0.90326633, "grad_norm": 3.30159211, "learning_rate": 5.67e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024121, "epoch": 0.05671482, "global_step/max_steps": "106/1869", "percentage": "5.67%", "elapsed_time": "1h 12m 49s", "remaining_time": "20h 11m 12s"}
-{"loss": 0.60183036, "token_acc": 0.77703605, "grad_norm": 3.33047438, "learning_rate": 5.72e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02416, "epoch": 0.05724987, "global_step/max_steps": "107/1869", "percentage": "5.72%", "elapsed_time": "1h 13m 23s", "remaining_time": "20h 8m 37s"}
-{"loss": 0.5076735, "token_acc": 0.84057971, "grad_norm": 3.24348402, "learning_rate": 5.78e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024233, "epoch": 0.05778491, "global_step/max_steps": "108/1869", "percentage": "5.78%", "elapsed_time": "1h 13m 51s", "remaining_time": "20h 4m 20s"}
-{"loss": 0.54462695, "token_acc": 0.87248322, "grad_norm": 2.59459591, "learning_rate": 5.83e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024272, "epoch": 0.05831996, "global_step/max_steps": "109/1869", "percentage": "5.83%", "elapsed_time": "1h 14m 25s", "remaining_time": "20h 1m 47s"}
-{"loss": 0.53691071, "token_acc": 0.87995713, "grad_norm": 3.4456141, "learning_rate": 5.88e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024462, "epoch": 0.058855, "global_step/max_steps": "110/1869", "percentage": "5.89%", "elapsed_time": "1h 14m 31s", "remaining_time": "19h 51m 47s"}
-{"eval_loss": 0.56357574, "eval_token_acc": 0.81488698, "eval_runtime": 229.875, "eval_samples_per_second": 2.01, "eval_steps_per_second": 0.252, "epoch": 0.058855, "global_step/max_steps": "110/1869", "percentage": "5.89%", "elapsed_time": "1h 18m 21s", "remaining_time": "20h 53m 3s"}
-{"loss": 0.54340547, "token_acc": 0.81990195, "grad_norm": 3.29366398, "learning_rate": 5.94e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023199, "epoch": 0.05939005, "global_step/max_steps": "111/1869", "percentage": "5.94%", "elapsed_time": "1h 19m 19s", "remaining_time": "20h 56m 23s"}
-{"loss": 0.54519576, "token_acc": 0.80656304, "grad_norm": 3.04416752, "learning_rate": 5.99e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023243, "epoch": 0.05992509, "global_step/max_steps": "112/1869", "percentage": "5.99%", "elapsed_time": "1h 19m 53s", "remaining_time": "20h 53m 18s"}
-{"loss": 0.55135477, "token_acc": 0.84189189, "grad_norm": 2.75748444, "learning_rate": 6.04e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023423, "epoch": 0.06046014, "global_step/max_steps": "113/1869", "percentage": "6.05%", "elapsed_time": "1h 19m 59s", "remaining_time": "20h 42m 59s"}
-{"loss": 0.53389496, "token_acc": 0.79389313, "grad_norm": 3.21420288, "learning_rate": 6.1e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023586, "epoch": 0.06099518, "global_step/max_steps": "114/1869", "percentage": "6.10%", "elapsed_time": "1h 20m 8s", "remaining_time": "20h 33m 42s"}
-{"loss": 0.54436785, "token_acc": 0.91196528, "grad_norm": 2.91739321, "learning_rate": 6.15e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023711, "epoch": 0.06153023, "global_step/max_steps": "115/1869", "percentage": "6.15%", "elapsed_time": "1h 20m 25s", "remaining_time": "20h 26m 31s"}
-{"loss": 0.53784937, "token_acc": 0.87464789, "grad_norm": 3.7390449, "learning_rate": 6.2e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023864, "epoch": 0.06206528, "global_step/max_steps": "116/1869", "percentage": "6.21%", "elapsed_time": "1h 20m 35s", "remaining_time": "20h 18m 0s"}
-{"loss": 0.50771028, "token_acc": 0.83206107, "grad_norm": 2.71534014, "learning_rate": 6.26e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024018, "epoch": 0.06260032, "global_step/max_steps": "117/1869", "percentage": "6.26%", "elapsed_time": "1h 20m 46s", "remaining_time": "20h 9m 31s"}
-{"loss": 0.59308904, "token_acc": 0.85210084, "grad_norm": 3.01042485, "learning_rate": 6.31e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024193, "epoch": 0.06313537, "global_step/max_steps": "118/1869", "percentage": "6.31%", "elapsed_time": "1h 20m 52s", "remaining_time": "20h 0m 4s"}
-{"loss": 0.62044275, "token_acc": 0.79741935, "grad_norm": 3.19279242, "learning_rate": 6.36e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024335, "epoch": 0.06367041, "global_step/max_steps": "119/1869", "percentage": "6.37%", "elapsed_time": "1h 21m 5s", "remaining_time": "19h 52m 24s"}
-{"loss": 0.49287954, "token_acc": 0.858458, "grad_norm": 2.80419707, "learning_rate": 6.42e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024493, "epoch": 0.06420546, "global_step/max_steps": "120/1869", "percentage": "6.42%", "elapsed_time": "1h 21m 14s", "remaining_time": "19h 44m 2s"}
-{"eval_loss": 0.55961174, "eval_token_acc": 0.81615867, "eval_runtime": 230.1577, "eval_samples_per_second": 2.007, "eval_steps_per_second": 0.252, "epoch": 0.06420546, "global_step/max_steps": "120/1869", "percentage": "6.42%", "elapsed_time": "1h 25m 4s", "remaining_time": "20h 39m 57s"}
-{"loss": 0.54057038, "token_acc": 0.82075514, "grad_norm": 2.9942472, "learning_rate": 6.47e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023354, "epoch": 0.0647405, "global_step/max_steps": "121/1869", "percentage": "6.47%", "elapsed_time": "1h 25m 56s", "remaining_time": "20h 41m 27s"}
-{"loss": 0.52263999, "token_acc": 0.76406926, "grad_norm": 2.67156076, "learning_rate": 6.52e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.02352, "epoch": 0.06527555, "global_step/max_steps": "122/1869", "percentage": "6.53%", "elapsed_time": "1h 26m 2s", "remaining_time": "20h 31m 59s"}
-{"loss": 0.53738159, "token_acc": 0.84412266, "grad_norm": 12.26797676, "learning_rate": 6.58e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023557, "epoch": 0.06581059, "global_step/max_steps": "123/1869", "percentage": "6.58%", "elapsed_time": "1h 26m 36s", "remaining_time": "20h 29m 22s"}
-{"loss": 0.5657295, "token_acc": 0.83591731, "grad_norm": 2.53747559, "learning_rate": 6.63e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023697, "epoch": 0.06634564, "global_step/max_steps": "124/1869", "percentage": "6.63%", "elapsed_time": "1h 26m 47s", "remaining_time": "20h 21m 24s"}
-{"loss": 0.53237057, "token_acc": 0.87220447, "grad_norm": 2.55328703, "learning_rate": 6.68e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023849, "epoch": 0.06688068, "global_step/max_steps": "125/1869", "percentage": "6.69%", "elapsed_time": "1h 26m 56s", "remaining_time": "20h 12m 57s"}
-{"loss": 0.54869002, "token_acc": 0.83877996, "grad_norm": 2.99796319, "learning_rate": 6.74e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024005, "epoch": 0.06741573, "global_step/max_steps": "126/1869", "percentage": "6.74%", "elapsed_time": "1h 27m 3s", "remaining_time": "20h 4m 25s"}
-{"loss": 0.52400422, "token_acc": 0.83865979, "grad_norm": 2.79718685, "learning_rate": 6.79e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024068, "epoch": 0.06795078, "global_step/max_steps": "127/1869", "percentage": "6.80%", "elapsed_time": "1h 27m 31s", "remaining_time": "20h 0m 34s"}
-{"loss": 0.71093082, "token_acc": 0.80859375, "grad_norm": 3.90603757, "learning_rate": 6.84e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024223, "epoch": 0.06848582, "global_step/max_steps": "128/1869", "percentage": "6.85%", "elapsed_time": "1h 27m 39s", "remaining_time": "19h 52m 13s"}
-{"loss": 0.50463545, "token_acc": 0.83333333, "grad_norm": 2.94590521, "learning_rate": 6.9e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024383, "epoch": 0.06902087, "global_step/max_steps": "129/1869", "percentage": "6.90%", "elapsed_time": "1h 27m 45s", "remaining_time": "19h 43m 42s"}
-{"loss": 0.53745633, "token_acc": 0.83262712, "grad_norm": 2.59035373, "learning_rate": 6.95e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024433, "epoch": 0.06955591, "global_step/max_steps": "130/1869", "percentage": "6.96%", "elapsed_time": "1h 28m 15s", "remaining_time": "19h 40m 39s"}
-{"eval_loss": 0.56035918, "eval_token_acc": 0.81557616, "eval_runtime": 229.5944, "eval_samples_per_second": 2.012, "eval_steps_per_second": 0.253, "epoch": 0.06955591, "global_step/max_steps": "130/1869", "percentage": "6.96%", "elapsed_time": "1h 32m 5s", "remaining_time": "20h 31m 50s"}
-{"loss": 0.58399153, "token_acc": 0.82197645, "grad_norm": 3.39958405, "learning_rate": 7.01e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023259, "epoch": 0.07009096, "global_step/max_steps": "131/1869", "percentage": "7.01%", "elapsed_time": "1h 33m 27s", "remaining_time": "20h 39m 52s"}
-{"loss": 0.59256887, "token_acc": 0.83518519, "grad_norm": 3.28909707, "learning_rate": 7.06e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023308, "epoch": 0.070626, "global_step/max_steps": "132/1869", "percentage": "7.06%", "elapsed_time": "1h 33m 58s", "remaining_time": "20h 36m 33s"}
-{"loss": 0.56649619, "token_acc": 0.80902778, "grad_norm": 2.58915138, "learning_rate": 7.11e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023458, "epoch": 0.07116105, "global_step/max_steps": "133/1869", "percentage": "7.12%", "elapsed_time": "1h 34m 4s", "remaining_time": "20h 27m 56s"}
-{"loss": 0.61177373, "token_acc": 0.78974359, "grad_norm": 5.05176878, "learning_rate": 7.17e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023585, "epoch": 0.07169609, "global_step/max_steps": "134/1869", "percentage": "7.17%", "elapsed_time": "1h 34m 16s", "remaining_time": "20h 20m 39s"}
-{"loss": 0.65109748, "token_acc": 0.89985272, "grad_norm": 2.85928106, "learning_rate": 7.22e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023619, "epoch": 0.07223114, "global_step/max_steps": "135/1869", "percentage": "7.22%", "elapsed_time": "1h 34m 50s", "remaining_time": "20h 18m 13s"}
-{"loss": 0.52532768, "token_acc": 0.84807692, "grad_norm": 3.02918744, "learning_rate": 7.27e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023769, "epoch": 0.07276619, "global_step/max_steps": "136/1869", "percentage": "7.28%", "elapsed_time": "1h 34m 56s", "remaining_time": "20h 9m 50s"}
-{"loss": 0.5924449, "token_acc": 0.75423729, "grad_norm": 3.36210465, "learning_rate": 7.33e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023907, "epoch": 0.07330123, "global_step/max_steps": "137/1869", "percentage": "7.33%", "elapsed_time": "1h 35m 5s", "remaining_time": "20h 2m 11s"}
-{"loss": 0.52899534, "token_acc": 0.82711198, "grad_norm": 2.4899435, "learning_rate": 7.38e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023972, "epoch": 0.07383628, "global_step/max_steps": "138/1869", "percentage": "7.38%", "elapsed_time": "1h 35m 31s", "remaining_time": "19h 58m 15s"}
-{"loss": 0.54284203, "token_acc": 0.78255373, "grad_norm": 2.8038137, "learning_rate": 7.43e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024119, "epoch": 0.07437132, "global_step/max_steps": "139/1869", "percentage": "7.44%", "elapsed_time": "1h 35m 38s", "remaining_time": "19h 50m 16s"}
-{"loss": 0.52143228, "token_acc": 0.77016129, "grad_norm": 2.69753623, "learning_rate": 7.49e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.024149, "epoch": 0.07490637, "global_step/max_steps": "140/1869", "percentage": "7.49%", "elapsed_time": "1h 36m 12s", "remaining_time": "19h 48m 8s"}
-{"eval_loss": 0.55663741, "eval_token_acc": 0.81685332, "eval_runtime": 230.3226, "eval_samples_per_second": 2.006, "eval_steps_per_second": 0.252, "epoch": 0.07490637, "global_step/max_steps": "140/1869", "percentage": "7.49%", "elapsed_time": "1h 40m 2s", "remaining_time": "20h 35m 33s"}
-{"loss": 0.51493675, "token_acc": 0.82090343, "grad_norm": 4.23805094, "learning_rate": 7.54e-06, "memory(GiB)": 129.17, "train_speed(iter/s)": 0.023194, "epoch": 0.07544141, "global_step/max_steps": "141/1869", "percentage": "7.54%", "elapsed_time": "1h 40m 54s", "remaining_time": "20h 36m 34s"}

+{"loss": 1.04274726, "token_acc": 0.73181024, "grad_norm": 1.58731401, "learning_rate": 9.96e-06, "memory(GiB)": 50.15, "train_speed(iter/s)": 0.006761, "epoch": 0.00428036, "global_step/max_steps": "1/233", "percentage": "0.43%", "elapsed_time": "2m 0s", "remaining_time": "7h 47m 46s"}
+{"loss": 0.77680439, "token_acc": 0.79295311, "grad_norm": 0.30901283, "learning_rate": 9.91e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007027, "epoch": 0.00856073, "global_step/max_steps": "2/233", "percentage": "0.86%", "elapsed_time": "4m 17s", "remaining_time": "8h 16m 3s"}
+{"loss": 0.70148385, "token_acc": 0.7940433, "grad_norm": 0.23801893, "learning_rate": 9.87e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007958, "epoch": 0.01284109, "global_step/max_steps": "3/233", "percentage": "1.29%", "elapsed_time": "5m 50s", "remaining_time": "7h 27m 17s"}
+{"loss": 0.64761907, "token_acc": 0.81746375, "grad_norm": 0.48050606, "learning_rate": 9.83e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008821, "epoch": 0.01712146, "global_step/max_steps": "4/233", "percentage": "1.72%", "elapsed_time": "7m 6s", "remaining_time": "6h 46m 58s"}
+{"loss": 0.65085697, "token_acc": 0.81193774, "grad_norm": 0.65042311, "learning_rate": 9.79e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.009923, "epoch": 0.02140182, "global_step/max_steps": "5/233", "percentage": "2.15%", "elapsed_time": "7m 56s", "remaining_time": "6h 2m 28s"}
+{"loss": 0.62768769, "token_acc": 0.83112061, "grad_norm": 0.23818119, "learning_rate": 9.74e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.010589, "epoch": 0.02568218, "global_step/max_steps": "6/233", "percentage": "2.58%", "elapsed_time": "8m 59s", "remaining_time": "5h 40m 18s"}
+{"loss": 0.56991327, "token_acc": 0.83454678, "grad_norm": 0.16101833, "learning_rate": 9.7e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.010662, "epoch": 0.02996255, "global_step/max_steps": "7/233", "percentage": "3.00%", "elapsed_time": "10m 29s", "remaining_time": "5h 38m 48s"}
+{"loss": 0.61518991, "token_acc": 0.80076522, "grad_norm": 0.15556115, "learning_rate": 9.66e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.010614, "epoch": 0.03424291, "global_step/max_steps": "8/233", "percentage": "3.43%", "elapsed_time": "12m 6s", "remaining_time": "5h 40m 41s"}
+{"loss": 0.57760227, "token_acc": 0.81403301, "grad_norm": 0.144108, "learning_rate": 9.61e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.01062, "epoch": 0.03852327, "global_step/max_steps": "9/233", "percentage": "3.86%", "elapsed_time": "13m 40s", "remaining_time": "5h 40m 22s"}
+{"loss": 0.58303452, "token_acc": 0.83037341, "grad_norm": 0.13778719, "learning_rate": 9.57e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.010237, "epoch": 0.04280364, "global_step/max_steps": "10/233", "percentage": "4.29%", "elapsed_time": "15m 49s", "remaining_time": "5h 53m 3s"}
+{"eval_loss": 0.59527695, "eval_token_acc": 0.81170434, "eval_runtime": 233.2243, "eval_samples_per_second": 1.981, "eval_steps_per_second": 0.249, "epoch": 0.04280364, "global_step/max_steps": "10/233", "percentage": "4.29%", "elapsed_time": "19m 43s", "remaining_time": "7h 19m 44s"}
+{"loss": 0.63753974, "token_acc": 0.81379129, "grad_norm": 0.13030376, "learning_rate": 9.53e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007648, "epoch": 0.047084, "global_step/max_steps": "11/233", "percentage": "4.72%", "elapsed_time": "23m 31s", "remaining_time": "7h 54m 45s"}
+{"loss": 0.57966983, "token_acc": 0.81350794, "grad_norm": 0.15187438, "learning_rate": 9.48e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007937, "epoch": 0.05136437, "global_step/max_steps": "12/233", "percentage": "5.15%", "elapsed_time": "24m 44s", "remaining_time": "7h 35m 47s"}
+{"loss": 0.62124658, "token_acc": 0.82540613, "grad_norm": 0.19398254, "learning_rate": 9.44e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008041, "epoch": 0.05564473, "global_step/max_steps": "13/233", "percentage": "5.58%", "elapsed_time": "26m 29s", "remaining_time": "7h 28m 23s"}
+{"loss": 0.59195113, "token_acc": 0.84889059, "grad_norm": 0.14909117, "learning_rate": 9.4e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007921, "epoch": 0.05992509, "global_step/max_steps": "14/233", "percentage": "6.01%", "elapsed_time": "29m 0s", "remaining_time": "7h 33m 48s"}
+{"loss": 0.56334275, "token_acc": 0.85094893, "grad_norm": 0.16648696, "learning_rate": 9.36e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.0082, "epoch": 0.06420546, "global_step/max_steps": "15/233", "percentage": "6.44%", "elapsed_time": "30m 2s", "remaining_time": "7h 16m 35s"}
+{"loss": 0.57447249, "token_acc": 0.83418108, "grad_norm": 0.17260818, "learning_rate": 9.31e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008317, "epoch": 0.06848582, "global_step/max_steps": "16/233", "percentage": "6.87%", "elapsed_time": "31m 36s", "remaining_time": "7h 8m 46s"}
+{"loss": 0.60325205, "token_acc": 0.85037696, "grad_norm": 0.14145872, "learning_rate": 9.27e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008252, "epoch": 0.07276619, "global_step/max_steps": "17/233", "percentage": "7.30%", "elapsed_time": "33m 53s", "remaining_time": "7h 10m 33s"}
+{"loss": 0.55406952, "token_acc": 0.79844716, "grad_norm": 0.13510257, "learning_rate": 9.23e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008258, "epoch": 0.07704655, "global_step/max_steps": "18/233", "percentage": "7.73%", "elapsed_time": "35m 52s", "remaining_time": "7h 8m 33s"}
+{"loss": 0.56625736, "token_acc": 0.82957988, "grad_norm": 0.14512017, "learning_rate": 9.18e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.008336, "epoch": 0.08132691, "global_step/max_steps": "19/233", "percentage": "8.15%", "elapsed_time": "37m 32s", "remaining_time": "7h 2m 48s"}
+{"loss": 0.63182867, "token_acc": 0.82193004, "grad_norm": 0.12133463, "learning_rate": 9.14e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.00798, "epoch": 0.08560728, "global_step/max_steps": "20/233", "percentage": "8.58%", "elapsed_time": "41m 19s", "remaining_time": "7h 20m 4s"}
+{"eval_loss": 0.56721854, "eval_token_acc": 0.8181927, "eval_runtime": 232.8395, "eval_samples_per_second": 1.984, "eval_steps_per_second": 0.249, "epoch": 0.08560728, "global_step/max_steps": "20/233", "percentage": "8.58%", "elapsed_time": "45m 12s", "remaining_time": "8h 1m 24s"}
+{"loss": 0.60323131, "token_acc": 0.8258105, "grad_norm": 0.11533567, "learning_rate": 9.1e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007167, "epoch": 0.08988764, "global_step/max_steps": "21/233", "percentage": "9.01%", "elapsed_time": "48m 23s", "remaining_time": "8h 8m 27s"}
+{"loss": 0.53516281, "token_acc": 0.81766999, "grad_norm": 0.15474154, "learning_rate": 9.06e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007337, "epoch": 0.094168, "global_step/max_steps": "22/233", "percentage": "9.44%", "elapsed_time": "49m 31s", "remaining_time": "7h 54m 59s"}
+{"loss": 0.57891035, "token_acc": 0.81802096, "grad_norm": 0.15017609, "learning_rate": 9.01e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007481, "epoch": 0.09844837, "global_step/max_steps": "23/233", "percentage": "9.87%", "elapsed_time": "50m 47s", "remaining_time": "7h 43m 46s"}
+{"loss": 0.58816868, "token_acc": 0.82830162, "grad_norm": 0.14161165, "learning_rate": 8.97e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007549, "epoch": 0.10272873, "global_step/max_steps": "24/233", "percentage": "10.30%", "elapsed_time": "52m 32s", "remaining_time": "7h 37m 29s"}
+{"loss": 0.52679861, "token_acc": 0.85343553, "grad_norm": 0.17885543, "learning_rate": 8.93e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007639, "epoch": 0.1070091, "global_step/max_steps": "25/233", "percentage": "10.73%", "elapsed_time": "54m 5s", "remaining_time": "7h 30m 6s"}
+{"loss": 0.54930174, "token_acc": 0.85352598, "grad_norm": 0.13782409, "learning_rate": 8.88e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007761, "epoch": 0.11128946, "global_step/max_steps": "26/233", "percentage": "11.16%", "elapsed_time": "55m 23s", "remaining_time": "7h 20m 56s"}
+{"loss": 0.57531053, "token_acc": 0.82278971, "grad_norm": 0.13616483, "learning_rate": 8.84e-06, "memory(GiB)": 126.13, "train_speed(iter/s)": 0.007855, "epoch": 0.11556982, "global_step/max_steps": "27/233", "percentage": "11.59%", "elapsed_time": "56m 50s", "remaining_time": "7h 13m 38s"}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc9fabf5284190749103c589d3582af6efc98a3f8ba5436ee09b8a2fb8018761
 size 8184

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8b662161f52043479ec3f750b33035c4b6929eb960ca019561b3178f19bd0d8
 size 8184