Training in progress, step 10

Browse files

Files changed (5) hide show

adapter_config.json +9 -9
adapter_model.safetensors +2 -2
args.json +19 -68
logging.jsonl +12 -98
training_args.bin +2 -2

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "/root/dataDisk/output/v63-20250312-123826/checkpoint-160-merged",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
@@ -12,26 +12,26 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [],
   "peft_type": "LORA",
-  "r": 512,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
-    "down_proj",
-    "o_proj",
-    "v_proj",
     "gate_proj",
     "q_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
-  "use_rslora": true
 }

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "/root/dataDisk/output/v68-20250313-073537/checkpoint-90-merged",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
+  "lora_dropout": 0.2,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [],
   "peft_type": "LORA",
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "gate_proj",
     "q_proj",
+    "up_proj",
+    "down_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
+  "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:829c0a666a74f42d50ccf06b82a42fbdfbb697119256d086b26ca91e8ed37e69
-size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:138a619f6d398e3542f90de7b6429f6236271e5733df67388a9c72a1f34f1205
+size 1656902648

args.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "model": "/root/dataDisk/output/v63-20250312-123826/checkpoint-160-merged",
   "model_type": "llama3_2",
   "model_revision": null,
   "task_type": "causal_lm",
@@ -11,7 +11,7 @@
   "local_repo_path": null,
   "template": "llama3_2",
   "system": "",
-  "max_length": 14000,
   "truncation_strategy": "left",
   "max_pixels": null,
   "tools_prompt": "react_en",
@@ -55,7 +55,7 @@
   "stream": false,
   "stop_words": [],
   "logprobs": false,
-  "ckpt_dir": "/root/dataDisk/output/v63-20250312-123826/checkpoint-160-merged",
   "load_dataset_config": null,
   "lora_modules": [],
   "tuner_backend": "peft",
@@ -70,7 +70,7 @@
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
-  "output_dir": "/root/dataDisk/output/v68-20250313-073537",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
@@ -81,7 +81,7 @@
   "per_device_eval_batch_size": 1,
   "per_gpu_train_batch_size": null,
   "per_gpu_eval_batch_size": null,
-  "gradient_accumulation_steps": 1,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
   "torch_empty_cache_steps": null,
@@ -100,7 +100,7 @@
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
-  "logging_dir": "/root/dataDisk/output/v68-20250313-073537/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
@@ -124,7 +124,7 @@
   "bf16_full_eval": false,
   "fp16_full_eval": false,
   "tf32": null,
-  "local_rank": 0,
   "ddp_backend": null,
   "tpu_num_cores": null,
   "tpu_metrics_debug": false,
@@ -149,45 +149,7 @@
   "accelerator_config": {
     "dispatch_batches": false
   },
-  "deepspeed": {
-    "fp16": {
-      "enabled": "auto",
-      "loss_scale": 0,
-      "loss_scale_window": 1000,
-      "initial_scale_power": 16,
-      "hysteresis": 2,
-      "min_loss_scale": 1
-    },
-    "bf16": {
-      "enabled": "auto"
-    },
-    "zero_optimization": {
-      "stage": 3,
-      "offload_optimizer": {
-        "device": "none",
-        "pin_memory": true
-      },
-      "offload_param": {
-        "device": "cpu",
-        "pin_memory": true
-      },
-      "overlap_comm": true,
-      "contiguous_gradients": true,
-      "sub_group_size": 1000000000.0,
-      "reduce_bucket_size": "auto",
-      "stage3_prefetch_bucket_size": "auto",
-      "stage3_param_persistence_threshold": "auto",
-      "stage3_max_live_parameters": 1000000000.0,
-      "stage3_max_reuse_distance": 1000000000.0,
-      "stage3_gather_16bit_weights_on_model_save": true
-    },
-    "gradient_accumulation_steps": "auto",
-    "gradient_clipping": "auto",
-    "steps_per_print": 2000,
-    "train_batch_size": "auto",
-    "train_micro_batch_size_per_gpu": "auto",
-    "wall_clock_breakdown": false
-  },
   "label_smoothing_factor": 0.0,
   "optim": "adamw_torch",
   "optim_args": null,
@@ -258,13 +220,13 @@
   ],
   "target_regex": null,
   "modules_to_save": [],
-  "lora_rank": 512,
-  "lora_alpha": 256,
-  "lora_dropout": 0.1,
   "lora_bias": "none",
   "lora_dtype": null,
   "lorap_lr_ratio": null,
-  "use_rslora": true,
   "use_dora": false,
   "lora_ga_batch_size": 2,
   "lora_ga_iters": 2,
@@ -331,23 +293,12 @@
   "acc_strategy": "token",
   "optimizer": null,
   "metric": null,
-  "rlhf_type": "orpo",
-  "ref_model": null,
-  "ref_model_type": null,
-  "ref_model_revision": null,
-  "beta": 0.1,
-  "label_smoothing": 0,
-  "rpo_alpha": 1.0,
-  "cpo_alpha": 1.0,
-  "simpo_gamma": 1,
-  "desirable_weight": 1.0,
-  "undesirable_weight": 1.0,
-  "rank": 0,
-  "local_world_size": 8,
-  "model_suffix": "checkpoint-160-merged",
-  "model_info": "ModelInfo(model_type='llama3_2', model_dir='/root/dataDisk/output/v63-20250312-123826/checkpoint-160-merged', torch_dtype=torch.bfloat16, max_model_len=131072, quant_method=None, quant_bits=None, config={'factor': 8.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, task_type=None)",
-  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7f03a47424d0>, model_arch='llama', architectures=['LlamaForCausalLM'], is_multimodal=False, additional_saved_files=[], torch_dtype=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
-  "model_dir": "/root/dataDisk/output/v63-20250312-123826/checkpoint-160-merged",
   "hub": "<class 'swift.hub.hub.HFHub'>",
-  "training_args": "ORPOConfig(output_dir='/root/dataDisk/output/v68-20250313-073537', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=1, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=1.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.1, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/root/dataDisk/output/v68-20250313-073537/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/root/dataDisk/output/v68-20250313-073537', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 3, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'offload_param': {'device': 'cpu', 'pin_memory': True}, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1000000000.0, 'reduce_bucket_size': 'auto', 'stage3_prefetch_bucket_size': 'auto', 'stage3_param_persistence_threshold': 'auto', 'stage3_max_live_parameters': 1000000000.0, 'stage3_max_reuse_distance': 1000000000.0, 'stage3_gather_16bit_weights_on_model_save': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, max_length=14000, max_prompt_length=None, max_completion_length=None, beta=0.1, disable_dropout=True, label_pad_token_id=None, padding_value=None, truncation_mode='keep_end', generate_during_eval=False, is_encoder_decoder=False, model_init_kwargs=None, dataset_num_proc=1, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora')"
 }

 {
+  "model": "/root/dataDisk/output/v68-20250313-073537/checkpoint-90-merged",
   "model_type": "llama3_2",
   "model_revision": null,
   "task_type": "causal_lm",
   "local_repo_path": null,
   "template": "llama3_2",
   "system": "",
+  "max_length": 64000,
   "truncation_strategy": "left",
   "max_pixels": null,
   "tools_prompt": "react_en",
   "stream": false,
   "stop_words": [],
   "logprobs": false,
+  "ckpt_dir": "/root/dataDisk/output/v68-20250313-073537/checkpoint-90-merged",
   "load_dataset_config": null,
   "lora_modules": [],
   "tuner_backend": "peft",
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
+  "output_dir": "/root/dataDisk/output/v78-20250314-065341",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
   "per_device_eval_batch_size": 1,
   "per_gpu_train_batch_size": null,
   "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
   "torch_empty_cache_steps": null,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
+  "logging_dir": "/root/dataDisk/output/v78-20250314-065341/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
   "bf16_full_eval": false,
   "fp16_full_eval": false,
   "tf32": null,
+  "local_rank": -1,
   "ddp_backend": null,
   "tpu_num_cores": null,
   "tpu_metrics_debug": false,
   "accelerator_config": {
     "dispatch_batches": false
   },
+  "deepspeed": null,
   "label_smoothing_factor": 0.0,
   "optim": "adamw_torch",
   "optim_args": null,
   ],
   "target_regex": null,
   "modules_to_save": [],
+  "lora_rank": 32,
+  "lora_alpha": 64,
+  "lora_dropout": 0.2,
   "lora_bias": "none",
   "lora_dtype": null,
   "lorap_lr_ratio": null,
+  "use_rslora": false,
   "use_dora": false,
   "lora_ga_batch_size": 2,
   "lora_ga_iters": 2,
   "acc_strategy": "token",
   "optimizer": null,
   "metric": null,
+  "rank": -1,
+  "local_world_size": 1,
+  "model_suffix": "checkpoint-90-merged",
+  "model_info": "ModelInfo(model_type='llama3_2', model_dir='/root/dataDisk/output/v68-20250313-073537/checkpoint-90-merged', torch_dtype=torch.bfloat16, max_model_len=131072, quant_method=None, quant_bits=None, config={'factor': 8.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, task_type=None)",
+  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7fb82e3124d0>, model_arch='llama', architectures=['LlamaForCausalLM'], is_multimodal=False, additional_saved_files=[], torch_dtype=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
+  "model_dir": "/root/dataDisk/output/v68-20250313-073537/checkpoint-90-merged",
   "hub": "<class 'swift.hub.hub.HFHub'>",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/root/dataDisk/output/v78-20250314-065341', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=1.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.1, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/root/dataDisk/output/v78-20250314-065341/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/root/dataDisk/output/v78-20250314-065341', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, is_encoder_decoder=False, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora')"
 }

logging.jsonl CHANGED Viewed

@@ -1,98 +1,12 @@
-{"loss": 0.58325195, "grad_norm": 6.15641366, "learning_rate": 3e-07, "memory(GiB)": 68.65, "train_speed(iter/s)": 0.012459, "rewards/chosen": -0.02832031, "rewards/rejected": -0.04541016, "rewards/accuracies": 1.0, "rewards/margins": 0.01708984, "logps/rejected": -0.45507812, "logps/chosen": -0.28320312, "logits/rejected": 0.05541992, "logits/chosen": 0.484375, "nll_loss": 0.28125, "log_odds_ratio": -0.4453125, "log_odds_chosen": 0.5703125, "epoch": 0.00303951, "global_step/max_steps": "1/329", "percentage": "0.30%", "elapsed_time": "1m 13s", "remaining_time": "6h 41m 36s"}
-{"loss": 0.57861328, "grad_norm": 4.96429781, "learning_rate": 6.1e-07, "memory(GiB)": 91.09, "train_speed(iter/s)": 0.015066, "rewards/chosen": -0.0480957, "rewards/rejected": -0.04980469, "rewards/accuracies": 1.0, "rewards/margins": 0.00170898, "logps/rejected": -0.49804688, "logps/chosen": -0.48046875, "logits/rejected": 0.734375, "logits/chosen": 0.59765625, "nll_loss": 0.48242188, "log_odds_ratio": -0.67578125, "log_odds_chosen": 0.03710938, "epoch": 0.00607903, "global_step/max_steps": "2/329", "percentage": "0.61%", "elapsed_time": "2m 5s", "remaining_time": "5h 43m 12s"}
-{"loss": 0.58496094, "grad_norm": 4.47705827, "learning_rate": 9.1e-07, "memory(GiB)": 91.09, "train_speed(iter/s)": 0.015521, "rewards/chosen": -0.0300293, "rewards/rejected": -0.02453613, "rewards/accuracies": 0.0, "rewards/margins": -0.00549316, "logps/rejected": -0.24511719, "logps/chosen": -0.30078125, "logits/rejected": 0.38867188, "logits/chosen": 0.26367188, "nll_loss": 0.29882812, "log_odds_ratio": -0.80859375, "log_odds_chosen": -0.21972656, "epoch": 0.00911854, "global_step/max_steps": "3/329", "percentage": "0.91%", "elapsed_time": "3m 6s", "remaining_time": "5h 37m 45s"}
-{"loss": 0.55322266, "grad_norm": 4.56437749, "learning_rate": 1.21e-06, "memory(GiB)": 93.05, "train_speed(iter/s)": 0.017586, "rewards/chosen": -0.04589844, "rewards/rejected": -0.04174805, "rewards/accuracies": 0.0, "rewards/margins": -0.00415039, "logps/rejected": -0.41796875, "logps/chosen": -0.45898438, "logits/rejected": 0.3046875, "logits/chosen": 0.37695312, "nll_loss": 0.45898438, "log_odds_ratio": -0.75390625, "log_odds_chosen": -0.11914062, "epoch": 0.01215805, "global_step/max_steps": "4/329", "percentage": "1.22%", "elapsed_time": "3m 40s", "remaining_time": "4h 58m 48s"}
-{"loss": 0.57531738, "grad_norm": 3.87794046, "learning_rate": 1.52e-06, "memory(GiB)": 100.25, "train_speed(iter/s)": 0.019266, "rewards/chosen": -0.0456543, "rewards/rejected": -0.046875, "rewards/accuracies": 1.0, "rewards/margins": 0.0012207, "logps/rejected": -0.46875, "logps/chosen": -0.45703125, "logits/rejected": 0.7578125, "logits/chosen": 0.67578125, "nll_loss": 0.45898438, "log_odds_ratio": -0.67578125, "log_odds_chosen": 0.03125, "epoch": 0.01519757, "global_step/max_steps": "5/329", "percentage": "1.52%", "elapsed_time": "4m 12s", "remaining_time": "4h 32m 56s"}
-{"loss": 0.55859375, "grad_norm": 4.16021983, "learning_rate": 1.82e-06, "memory(GiB)": 100.25, "train_speed(iter/s)": 0.019891, "rewards/chosen": -0.04296875, "rewards/rejected": -0.0480957, "rewards/accuracies": 1.0, "rewards/margins": 0.00512695, "logps/rejected": -0.48046875, "logps/chosen": -0.4296875, "logits/rejected": 0.7734375, "logits/chosen": 0.77734375, "nll_loss": 0.4296875, "log_odds_ratio": -0.625, "log_odds_chosen": 0.14453125, "epoch": 0.01823708, "global_step/max_steps": "6/329", "percentage": "1.82%", "elapsed_time": "4m 54s", "remaining_time": "4h 24m 32s"}
-{"loss": 0.64770508, "grad_norm": 5.19085531, "learning_rate": 2.12e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.019273, "rewards/chosen": -0.03979492, "rewards/rejected": -0.03662109, "rewards/accuracies": 0.0, "rewards/margins": -0.00317383, "logps/rejected": -0.36523438, "logps/chosen": -0.3984375, "logits/rejected": 0.54296875, "logits/chosen": 0.515625, "nll_loss": 0.3984375, "log_odds_ratio": -0.74609375, "log_odds_chosen": -0.10351562, "epoch": 0.0212766, "global_step/max_steps": "7/329", "percentage": "2.13%", "elapsed_time": "5m 56s", "remaining_time": "4h 33m 14s"}
-{"loss": 0.48022461, "grad_norm": 8.73835517, "learning_rate": 2.42e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.018543, "rewards/chosen": -0.03088379, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.01159668, "logps/rejected": -0.42578125, "logps/chosen": -0.30859375, "logits/rejected": 0.78125, "logits/chosen": 0.55078125, "nll_loss": 0.30859375, "log_odds_ratio": -0.515625, "log_odds_chosen": 0.390625, "epoch": 0.02431611, "global_step/max_steps": "8/329", "percentage": "2.43%", "elapsed_time": "7m 4s", "remaining_time": "4h 43m 57s"}
-{"loss": 0.54199219, "grad_norm": 3.21968845, "learning_rate": 2.73e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.018768, "rewards/chosen": -0.04907227, "rewards/rejected": -0.0480957, "rewards/accuracies": 0.0, "rewards/margins": -0.00097656, "logps/rejected": -0.48046875, "logps/chosen": -0.49023438, "logits/rejected": 0.86328125, "logits/chosen": 0.74609375, "nll_loss": 0.4921875, "log_odds_ratio": -0.703125, "log_odds_chosen": -0.02148438, "epoch": 0.02735562, "global_step/max_steps": "9/329", "percentage": "2.74%", "elapsed_time": "7m 52s", "remaining_time": "4h 40m 8s"}
-{"loss": 0.5090332, "grad_norm": 4.62599348, "learning_rate": 3.03e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.018667, "rewards/chosen": -0.04589844, "rewards/rejected": -0.04492188, "rewards/accuracies": 0.0, "rewards/margins": -0.00097656, "logps/rejected": -0.44921875, "logps/chosen": -0.45898438, "logits/rejected": 0.94921875, "logits/chosen": 0.8828125, "nll_loss": 0.4609375, "log_odds_ratio": -0.703125, "log_odds_chosen": -0.02539062, "epoch": 0.03039514, "global_step/max_steps": "10/329", "percentage": "3.04%", "elapsed_time": "8m 48s", "remaining_time": "4h 41m 11s"}
-{"eval_loss": 0.5304302, "eval_runtime": 141.9055, "eval_samples_per_second": 0.571, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.05118075, "eval_rewards/rejected": -0.04210316, "eval_rewards/accuracies": 0.09090909, "eval_rewards/margins": -0.00907759, "eval_logps/rejected": -0.42116478, "eval_logps/chosen": -0.51136363, "eval_logits/rejected": 0.64182353, "eval_logits/chosen": 0.47944781, "eval_nll_loss": 0.51136363, "eval_log_odds_ratio": -0.80397725, "eval_log_odds_chosen": -0.19655539, "epoch": 0.03039514, "global_step/max_steps": "10/329", "percentage": "3.04%", "elapsed_time": "11m 10s", "remaining_time": "5h 56m 38s"}
-{"loss": 0.57714844, "grad_norm": 3.36059428, "learning_rate": 3.33e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014731, "rewards/chosen": -0.05029297, "rewards/rejected": -0.04345703, "rewards/accuracies": 0.0, "rewards/margins": -0.00683594, "logps/rejected": -0.43359375, "logps/chosen": -0.50390625, "logits/rejected": 0.62890625, "logits/chosen": 0.66796875, "nll_loss": 0.50390625, "log_odds_ratio": -0.79296875, "log_odds_chosen": -0.1875, "epoch": 0.03343465, "global_step/max_steps": "11/329", "percentage": "3.34%", "elapsed_time": "12m 19s", "remaining_time": "5h 56m 30s"}
-{"loss": 0.60522461, "grad_norm": 3.99234345, "learning_rate": 3.64e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014797, "rewards/chosen": -0.1015625, "rewards/rejected": -0.15039062, "rewards/accuracies": 1.0, "rewards/margins": 0.04882812, "logps/rejected": -1.5078125, "logps/chosen": -1.015625, "logits/rejected": 0.53125, "logits/chosen": 0.5234375, "nll_loss": 1.015625, "log_odds_ratio": -0.40429688, "log_odds_chosen": 0.69140625, "epoch": 0.03647416, "global_step/max_steps": "12/329", "percentage": "3.65%", "elapsed_time": "13m 24s", "remaining_time": "5h 54m 3s"}
-{"loss": 0.46606445, "grad_norm": 3.84386517, "learning_rate": 3.94e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014892, "rewards/chosen": -0.0546875, "rewards/rejected": -0.05029297, "rewards/accuracies": 0.0, "rewards/margins": -0.00439453, "logps/rejected": -0.50390625, "logps/chosen": -0.546875, "logits/rejected": 0.49609375, "logits/chosen": 0.49414062, "nll_loss": 0.55078125, "log_odds_ratio": -0.75, "log_odds_chosen": -0.109375, "epoch": 0.03951368, "global_step/max_steps": "13/329", "percentage": "3.95%", "elapsed_time": "14m 26s", "remaining_time": "5h 50m 54s"}
-{"loss": 0.47485352, "grad_norm": 3.8112063, "learning_rate": 4.24e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015552, "rewards/chosen": -0.04541016, "rewards/rejected": -0.04736328, "rewards/accuracies": 1.0, "rewards/margins": 0.00195312, "logps/rejected": -0.47460938, "logps/chosen": -0.45507812, "logits/rejected": 0.87890625, "logits/chosen": 0.625, "nll_loss": 0.45507812, "log_odds_ratio": -0.671875, "log_odds_chosen": 0.05078125, "epoch": 0.04255319, "global_step/max_steps": "14/329", "percentage": "4.26%", "elapsed_time": "14m 53s", "remaining_time": "5h 35m 1s"}
-{"loss": 0.41088867, "grad_norm": 2.89629065, "learning_rate": 4.55e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.016012, "rewards/chosen": -0.05981445, "rewards/rejected": -0.06054688, "rewards/accuracies": 1.0, "rewards/margins": 0.00073242, "logps/rejected": -0.60546875, "logps/chosen": -0.59765625, "logits/rejected": 0.546875, "logits/chosen": 0.4609375, "nll_loss": 0.59765625, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.015625, "epoch": 0.04559271, "global_step/max_steps": "15/329", "percentage": "4.56%", "elapsed_time": "15m 29s", "remaining_time": "5h 24m 27s"}
-{"loss": 0.54125977, "grad_norm": 6.06482857, "learning_rate": 4.85e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.016154, "rewards/chosen": -0.06640625, "rewards/rejected": -0.06835938, "rewards/accuracies": 1.0, "rewards/margins": 0.00195312, "logps/rejected": -0.68359375, "logps/chosen": -0.6640625, "logits/rejected": 0.82421875, "logits/chosen": 0.7109375, "nll_loss": 0.6640625, "log_odds_ratio": -0.671875, "log_odds_chosen": 0.046875, "epoch": 0.04863222, "global_step/max_steps": "16/329", "percentage": "4.86%", "elapsed_time": "16m 23s", "remaining_time": "5h 20m 43s"}
-{"loss": 0.5378418, "grad_norm": 4.0430688, "learning_rate": 5.15e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.016479, "rewards/chosen": -0.03979492, "rewards/rejected": -0.03686523, "rewards/accuracies": 0.0, "rewards/margins": -0.00292969, "logps/rejected": -0.36914062, "logps/chosen": -0.3984375, "logits/rejected": 0.56640625, "logits/chosen": 0.6171875, "nll_loss": 0.3984375, "log_odds_ratio": -0.73828125, "log_odds_chosen": -0.08398438, "epoch": 0.05167173, "global_step/max_steps": "17/329", "percentage": "5.17%", "elapsed_time": "17m 4s", "remaining_time": "5h 13m 28s"}
-{"loss": 0.61254883, "grad_norm": 4.21434647, "learning_rate": 5.45e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01684, "rewards/chosen": -0.03637695, "rewards/rejected": -0.03564453, "rewards/accuracies": 0.0, "rewards/margins": -0.00073242, "logps/rejected": -0.35546875, "logps/chosen": -0.36328125, "logits/rejected": 0.66796875, "logits/chosen": 0.6796875, "nll_loss": 0.36523438, "log_odds_ratio": -0.703125, "log_odds_chosen": -0.0234375, "epoch": 0.05471125, "global_step/max_steps": "18/329", "percentage": "5.47%", "elapsed_time": "17m 42s", "remaining_time": "5h 5m 50s"}
-{"loss": 0.53515625, "grad_norm": 4.19814501, "learning_rate": 5.76e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.017159, "rewards/chosen": -0.03955078, "rewards/rejected": -0.046875, "rewards/accuracies": 1.0, "rewards/margins": 0.00732422, "logps/rejected": -0.46875, "logps/chosen": -0.39453125, "logits/rejected": 0.9453125, "logits/chosen": 0.8515625, "nll_loss": 0.39453125, "log_odds_ratio": -0.58984375, "log_odds_chosen": 0.21875, "epoch": 0.05775076, "global_step/max_steps": "19/329", "percentage": "5.78%", "elapsed_time": "18m 20s", "remaining_time": "4h 59m 15s"}
-{"loss": 0.54125977, "grad_norm": 3.79412169, "learning_rate": 6.06e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.017282, "rewards/chosen": -0.04223633, "rewards/rejected": -0.04785156, "rewards/accuracies": 1.0, "rewards/margins": 0.00561523, "logps/rejected": -0.47851562, "logps/chosen": -0.421875, "logits/rejected": 0.92578125, "logits/chosen": 0.83203125, "nll_loss": 0.41992188, "log_odds_ratio": -0.6171875, "log_odds_chosen": 0.15820312, "epoch": 0.06079027, "global_step/max_steps": "20/329", "percentage": "6.08%", "elapsed_time": "19m 10s", "remaining_time": "4h 56m 14s"}
-{"eval_loss": 0.48731676, "eval_runtime": 141.3621, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.04798473, "eval_rewards/rejected": -0.04245827, "eval_rewards/accuracies": 0.36363637, "eval_rewards/margins": -0.00552646, "eval_logps/rejected": -0.42436078, "eval_logps/chosen": -0.47993609, "eval_logits/rejected": 0.63751775, "eval_logits/chosen": 0.46457741, "eval_nll_loss": 0.48046875, "eval_log_odds_ratio": -0.76065344, "eval_log_odds_chosen": -0.1209162, "epoch": 0.06079027, "global_step/max_steps": "20/329", "percentage": "6.08%", "elapsed_time": "21m 31s", "remaining_time": "5h 32m 38s"}
-{"loss": 0.55859375, "grad_norm": 3.87846906, "learning_rate": 6.36e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014998, "rewards/chosen": -0.04443359, "rewards/rejected": -0.04345703, "rewards/accuracies": 0.0, "rewards/margins": -0.00097656, "logps/rejected": -0.43554688, "logps/chosen": -0.44335938, "logits/rejected": 0.8671875, "logits/chosen": 0.73828125, "nll_loss": 0.44335938, "log_odds_ratio": -0.70703125, "log_odds_chosen": -0.03125, "epoch": 0.06382979, "global_step/max_steps": "21/329", "percentage": "6.38%", "elapsed_time": "23m 13s", "remaining_time": "5h 40m 36s"}
-{"loss": 0.56225586, "grad_norm": 4.18671961, "learning_rate": 6.67e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01529, "rewards/chosen": -0.0213623, "rewards/rejected": -0.02575684, "rewards/accuracies": 1.0, "rewards/margins": 0.00439453, "logps/rejected": -0.2578125, "logps/chosen": -0.21386719, "logits/rejected": 0.45117188, "logits/chosen": -0.13769531, "nll_loss": 0.21386719, "log_odds_ratio": -0.58984375, "log_odds_chosen": 0.21582031, "epoch": 0.0668693, "global_step/max_steps": "22/329", "percentage": "6.69%", "elapsed_time": "23m 52s", "remaining_time": "5h 33m 3s"}
-{"loss": 0.47485352, "grad_norm": 3.98496135, "learning_rate": 6.97e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015225, "rewards/chosen": -0.02368164, "rewards/rejected": -0.03759766, "rewards/accuracies": 1.0, "rewards/margins": 0.01391602, "logps/rejected": -0.37695312, "logps/chosen": -0.23730469, "logits/rejected": 0.6484375, "logits/chosen": 0.578125, "nll_loss": 0.23730469, "log_odds_ratio": -0.46289062, "log_odds_chosen": 0.53125, "epoch": 0.06990881, "global_step/max_steps": "23/329", "percentage": "6.99%", "elapsed_time": "25m 3s", "remaining_time": "5h 33m 27s"}
-{"loss": 0.42382812, "grad_norm": 5.14767182, "learning_rate": 7.27e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015447, "rewards/chosen": -0.03686523, "rewards/rejected": -0.03100586, "rewards/accuracies": 0.0, "rewards/margins": -0.00585938, "logps/rejected": -0.31054688, "logps/chosen": -0.36914062, "logits/rejected": 0.60546875, "logits/chosen": 0.07275391, "nll_loss": 0.3671875, "log_odds_ratio": -0.8046875, "log_odds_chosen": -0.21484375, "epoch": 0.07294833, "global_step/max_steps": "24/329", "percentage": "7.29%", "elapsed_time": "25m 46s", "remaining_time": "5h 27m 39s"}
-{"loss": 0.48901367, "grad_norm": 4.5075747, "learning_rate": 7.58e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015391, "rewards/chosen": -0.04077148, "rewards/rejected": -0.03833008, "rewards/accuracies": 0.0, "rewards/margins": -0.00244141, "logps/rejected": -0.3828125, "logps/chosen": -0.40820312, "logits/rejected": 0.8828125, "logits/chosen": 0.83203125, "nll_loss": 0.41015625, "log_odds_ratio": -0.734375, "log_odds_chosen": -0.08007812, "epoch": 0.07598784, "global_step/max_steps": "25/329", "percentage": "7.60%", "elapsed_time": "26m 57s", "remaining_time": "5h 27m 49s"}
-{"loss": 0.54833984, "grad_norm": 2.78823026, "learning_rate": 7.88e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015468, "rewards/chosen": -0.0546875, "rewards/rejected": -0.06201172, "rewards/accuracies": 1.0, "rewards/margins": 0.00732422, "logps/rejected": -0.62109375, "logps/chosen": -0.546875, "logits/rejected": 0.9375, "logits/chosen": 0.9609375, "nll_loss": 0.54296875, "log_odds_ratio": -0.6171875, "log_odds_chosen": 0.1640625, "epoch": 0.07902736, "global_step/max_steps": "26/329", "percentage": "7.90%", "elapsed_time": "27m 54s", "remaining_time": "5h 25m 9s"}
-{"loss": 0.53491211, "grad_norm": 2.33643382, "learning_rate": 8.18e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015668, "rewards/chosen": -0.03540039, "rewards/rejected": -0.03344727, "rewards/accuracies": 0.0, "rewards/margins": -0.00195312, "logps/rejected": -0.33398438, "logps/chosen": -0.35351562, "logits/rejected": 0.69921875, "logits/chosen": 0.7109375, "nll_loss": 0.35351562, "log_odds_ratio": -0.7265625, "log_odds_chosen": -0.06640625, "epoch": 0.08206687, "global_step/max_steps": "27/329", "percentage": "8.21%", "elapsed_time": "28m 36s", "remaining_time": "5h 19m 59s"}
-{"loss": 0.47070312, "grad_norm": 2.21829398, "learning_rate": 8.48e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015781, "rewards/chosen": -0.03759766, "rewards/rejected": -0.03588867, "rewards/accuracies": 0.0, "rewards/margins": -0.00170898, "logps/rejected": -0.359375, "logps/chosen": -0.375, "logits/rejected": 0.65625, "logits/chosen": 0.5703125, "nll_loss": 0.37304688, "log_odds_ratio": -0.72265625, "log_odds_chosen": -0.0546875, "epoch": 0.08510638, "global_step/max_steps": "28/329", "percentage": "8.51%", "elapsed_time": "29m 27s", "remaining_time": "5h 16m 40s"}
-{"loss": 0.38208008, "grad_norm": 2.28612562, "learning_rate": 8.79e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.016062, "rewards/chosen": -0.04541016, "rewards/rejected": -0.0534668, "rewards/accuracies": 1.0, "rewards/margins": 0.00805664, "logps/rejected": -0.53515625, "logps/chosen": -0.45507812, "logits/rejected": 0.7265625, "logits/chosen": 0.6171875, "nll_loss": 0.45507812, "log_odds_ratio": -0.59765625, "log_odds_chosen": 0.19726562, "epoch": 0.0881459, "global_step/max_steps": "29/329", "percentage": "8.81%", "elapsed_time": "29m 58s", "remaining_time": "5h 10m 6s"}
-{"loss": 0.42822266, "grad_norm": 2.70612354, "learning_rate": 9.09e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01625, "rewards/chosen": -0.02954102, "rewards/rejected": -0.03759766, "rewards/accuracies": 1.0, "rewards/margins": 0.00805664, "logps/rejected": -0.37695312, "logps/chosen": -0.29492188, "logits/rejected": 0.6640625, "logits/chosen": 0.44921875, "nll_loss": 0.29492188, "log_odds_ratio": -0.5625, "log_odds_chosen": 0.28515625, "epoch": 0.09118541, "global_step/max_steps": "30/329", "percentage": "9.12%", "elapsed_time": "30m 39s", "remaining_time": "5h 5m 31s"}
-{"eval_loss": 0.44935137, "eval_runtime": 141.4415, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.04081587, "eval_rewards/rejected": -0.04189231, "eval_rewards/accuracies": 0.36363637, "eval_rewards/margins": 0.00107644, "eval_logps/rejected": -0.41850141, "eval_logps/chosen": -0.40802556, "eval_logits/rejected": 0.61265981, "eval_logits/chosen": 0.45818537, "eval_nll_loss": 0.40802556, "eval_log_odds_ratio": -0.70543325, "eval_log_odds_chosen": 0.00585938, "epoch": 0.09118541, "global_step/max_steps": "30/329", "percentage": "9.12%", "elapsed_time": "33m 0s", "remaining_time": "5h 29m 1s"}
-{"loss": 0.48413086, "grad_norm": 2.59063774, "learning_rate": 9.39e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014881, "rewards/chosen": -0.02929688, "rewards/rejected": -0.02539062, "rewards/accuracies": 0.0, "rewards/margins": -0.00390625, "logps/rejected": -0.25390625, "logps/chosen": -0.29296875, "logits/rejected": 0.7734375, "logits/chosen": 0.73828125, "nll_loss": 0.29101562, "log_odds_ratio": -0.78125, "log_odds_chosen": -0.171875, "epoch": 0.09422492, "global_step/max_steps": "31/329", "percentage": "9.42%", "elapsed_time": "34m 36s", "remaining_time": "5h 32m 39s"}
-{"loss": 0.53686523, "grad_norm": 3.66323262, "learning_rate": 9.7e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015086, "rewards/chosen": -0.03515625, "rewards/rejected": -0.05859375, "rewards/accuracies": 1.0, "rewards/margins": 0.0234375, "logps/rejected": -0.5859375, "logps/chosen": -0.3515625, "logits/rejected": 0.97265625, "logits/chosen": 0.828125, "nll_loss": 0.3515625, "log_odds_ratio": -0.42773438, "log_odds_chosen": 0.63671875, "epoch": 0.09726444, "global_step/max_steps": "32/329", "percentage": "9.73%", "elapsed_time": "35m 14s", "remaining_time": "5h 27m 4s"}
-{"loss": 0.49829102, "grad_norm": 3.00754812, "learning_rate": 1e-05, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015242, "rewards/chosen": -0.04980469, "rewards/rejected": -0.0534668, "rewards/accuracies": 1.0, "rewards/margins": 0.00366211, "logps/rejected": -0.53515625, "logps/chosen": -0.49804688, "logits/rejected": 0.5234375, "logits/chosen": 0.51171875, "nll_loss": 0.49804688, "log_odds_ratio": -0.6484375, "log_odds_chosen": 0.09570312, "epoch": 0.10030395, "global_step/max_steps": "33/329", "percentage": "10.03%", "elapsed_time": "35m 58s", "remaining_time": "5h 22m 39s"}
-{"loss": 0.51086426, "grad_norm": 3.42153211, "learning_rate": 9.97e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.0154, "rewards/chosen": -0.07275391, "rewards/rejected": -0.07421875, "rewards/accuracies": 1.0, "rewards/margins": 0.00146484, "logps/rejected": -0.7421875, "logps/chosen": -0.7265625, "logits/rejected": 0.94140625, "logits/chosen": 0.9453125, "nll_loss": 0.72265625, "log_odds_ratio": -0.67578125, "log_odds_chosen": 0.03125, "epoch": 0.10334347, "global_step/max_steps": "34/329", "percentage": "10.33%", "elapsed_time": "36m 40s", "remaining_time": "5h 18m 16s"}
-{"loss": 0.42364502, "grad_norm": 2.60415441, "learning_rate": 9.93e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015386, "rewards/chosen": -0.03979492, "rewards/rejected": -0.03759766, "rewards/accuracies": 0.0, "rewards/margins": -0.00219727, "logps/rejected": -0.37695312, "logps/chosen": -0.3984375, "logits/rejected": 0.671875, "logits/chosen": 0.63671875, "nll_loss": 0.39648438, "log_odds_ratio": -0.73046875, "log_odds_chosen": -0.06835938, "epoch": 0.10638298, "global_step/max_steps": "35/329", "percentage": "10.64%", "elapsed_time": "37m 48s", "remaining_time": "5h 17m 31s"}
-{"loss": 0.49169922, "grad_norm": 3.22208954, "learning_rate": 9.9e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01561, "rewards/chosen": -0.03637695, "rewards/rejected": -0.03271484, "rewards/accuracies": 0.0, "rewards/margins": -0.00366211, "logps/rejected": -0.32617188, "logps/chosen": -0.36328125, "logits/rejected": 0.63671875, "logits/chosen": 0.55859375, "nll_loss": 0.36328125, "log_odds_ratio": -0.76171875, "log_odds_chosen": -0.13085938, "epoch": 0.10942249, "global_step/max_steps": "36/329", "percentage": "10.94%", "elapsed_time": "38m 19s", "remaining_time": "5h 11m 54s"}
-{"loss": 0.47021484, "grad_norm": 3.0829396, "learning_rate": 9.86e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015624, "rewards/chosen": -0.02856445, "rewards/rejected": -0.03637695, "rewards/accuracies": 1.0, "rewards/margins": 0.0078125, "logps/rejected": -0.36328125, "logps/chosen": -0.28515625, "logits/rejected": 0.39648438, "logits/chosen": 0.3984375, "nll_loss": 0.28515625, "log_odds_ratio": -0.5703125, "log_odds_chosen": 0.2734375, "epoch": 0.11246201, "global_step/max_steps": "37/329", "percentage": "11.25%", "elapsed_time": "39m 21s", "remaining_time": "5h 10m 35s"}
-{"loss": 0.43920898, "grad_norm": 2.3938894, "learning_rate": 9.83e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015565, "rewards/chosen": -0.02514648, "rewards/rejected": -0.03955078, "rewards/accuracies": 1.0, "rewards/margins": 0.0144043, "logps/rejected": -0.39453125, "logps/chosen": -0.25195312, "logits/rejected": 0.6640625, "logits/chosen": 0.78515625, "nll_loss": 0.25, "log_odds_ratio": -0.47070312, "log_odds_chosen": 0.515625, "epoch": 0.11550152, "global_step/max_steps": "38/329", "percentage": "11.55%", "elapsed_time": "40m 34s", "remaining_time": "5h 10m 44s"}
-{"loss": 0.52661133, "grad_norm": 4.36714908, "learning_rate": 9.8e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015636, "rewards/chosen": -0.04272461, "rewards/rejected": -0.04785156, "rewards/accuracies": 1.0, "rewards/margins": 0.00512695, "logps/rejected": -0.47851562, "logps/chosen": -0.42773438, "logits/rejected": 0.6171875, "logits/chosen": 0.52734375, "nll_loss": 0.42773438, "log_odds_ratio": -0.625, "log_odds_chosen": 0.13671875, "epoch": 0.11854103, "global_step/max_steps": "39/329", "percentage": "11.85%", "elapsed_time": "41m 27s", "remaining_time": "5h 8m 15s"}
-{"loss": 0.47045898, "grad_norm": 4.14709109, "learning_rate": 9.76e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015704, "rewards/chosen": -0.03271484, "rewards/rejected": -0.02807617, "rewards/accuracies": 0.0, "rewards/margins": -0.00463867, "logps/rejected": -0.28125, "logps/chosen": -0.32617188, "logits/rejected": 0.5078125, "logits/chosen": 0.5625, "nll_loss": 0.32617188, "log_odds_ratio": -0.77734375, "log_odds_chosen": -0.16210938, "epoch": 0.12158055, "global_step/max_steps": "40/329", "percentage": "12.16%", "elapsed_time": "42m 20s", "remaining_time": "5h 5m 53s"}
-{"eval_loss": 0.430435, "eval_runtime": 141.4573, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03850764, "eval_rewards/rejected": -0.04306863, "eval_rewards/accuracies": 0.54545456, "eval_rewards/margins": 0.00456099, "eval_logps/rejected": -0.43066406, "eval_logps/chosen": -0.38512075, "eval_logits/rejected": 0.59778941, "eval_logits/chosen": 0.43534711, "eval_nll_loss": 0.38556463, "eval_log_odds_ratio": -0.65500712, "eval_log_odds_chosen": 0.12073863, "epoch": 0.12158055, "global_step/max_steps": "40/329", "percentage": "12.16%", "elapsed_time": "44m 41s", "remaining_time": "5h 22m 55s"}
-{"loss": 0.45703125, "grad_norm": 3.23141242, "learning_rate": 9.73e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014723, "rewards/chosen": -0.04174805, "rewards/rejected": -0.06591797, "rewards/accuracies": 1.0, "rewards/margins": 0.02416992, "logps/rejected": -0.66015625, "logps/chosen": -0.41796875, "logits/rejected": 0.9375, "logits/chosen": 0.703125, "nll_loss": 0.41796875, "log_odds_ratio": -0.43945312, "log_odds_chosen": 0.59375, "epoch": 0.12462006, "global_step/max_steps": "41/329", "percentage": "12.46%", "elapsed_time": "46m 17s", "remaining_time": "5h 25m 13s"}
-{"loss": 0.47009277, "grad_norm": 3.47659563, "learning_rate": 9.7e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014886, "rewards/chosen": -0.03955078, "rewards/rejected": -0.04223633, "rewards/accuracies": 1.0, "rewards/margins": 0.00268555, "logps/rejected": -0.421875, "logps/chosen": -0.39453125, "logits/rejected": 0.5546875, "logits/chosen": 0.6015625, "nll_loss": 0.39453125, "log_odds_ratio": -0.65625, "log_odds_chosen": 0.08203125, "epoch": 0.12765957, "global_step/max_steps": "42/329", "percentage": "12.77%", "elapsed_time": "46m 54s", "remaining_time": "5h 20m 33s"}
-{"loss": 0.47509766, "grad_norm": 2.83518068, "learning_rate": 9.66e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014982, "rewards/chosen": -0.04736328, "rewards/rejected": -0.04052734, "rewards/accuracies": 0.0, "rewards/margins": -0.00683594, "logps/rejected": -0.40625, "logps/chosen": -0.47265625, "logits/rejected": 0.72265625, "logits/chosen": 0.17382812, "nll_loss": 0.47265625, "log_odds_ratio": -0.79296875, "log_odds_chosen": -0.1875, "epoch": 0.13069909, "global_step/max_steps": "43/329", "percentage": "13.07%", "elapsed_time": "47m 43s", "remaining_time": "5h 17m 24s"}
-{"loss": 0.49536133, "grad_norm": 5.37874758, "learning_rate": 9.63e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015103, "rewards/chosen": -0.03979492, "rewards/rejected": -0.03881836, "rewards/accuracies": 0.0, "rewards/margins": -0.00097656, "logps/rejected": -0.38867188, "logps/chosen": -0.3984375, "logits/rejected": 0.8046875, "logits/chosen": 0.7578125, "nll_loss": 0.39648438, "log_odds_ratio": -0.70703125, "log_odds_chosen": -0.03320312, "epoch": 0.1337386, "global_step/max_steps": "44/329", "percentage": "13.37%", "elapsed_time": "48m 26s", "remaining_time": "5h 13m 45s"}
-{"loss": 0.4909668, "grad_norm": 2.45579564, "learning_rate": 9.59e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015144, "rewards/chosen": -0.02893066, "rewards/rejected": -0.04785156, "rewards/accuracies": 1.0, "rewards/margins": 0.0189209, "logps/rejected": -0.47851562, "logps/chosen": -0.2890625, "logits/rejected": 0.50390625, "logits/chosen": 0.66796875, "nll_loss": 0.2890625, "log_odds_ratio": -0.43945312, "log_odds_chosen": 0.6015625, "epoch": 0.13677812, "global_step/max_steps": "45/329", "percentage": "13.68%", "elapsed_time": "49m 24s", "remaining_time": "5h 11m 50s"}
-{"loss": 0.39465332, "grad_norm": 2.91095937, "learning_rate": 9.56e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015301, "rewards/chosen": -0.04785156, "rewards/rejected": -0.04052734, "rewards/accuracies": 0.0, "rewards/margins": -0.00732422, "logps/rejected": -0.40625, "logps/chosen": -0.47851562, "logits/rejected": 0.57421875, "logits/chosen": 0.6875, "nll_loss": 0.47851562, "log_odds_ratio": -0.80078125, "log_odds_chosen": -0.20507812, "epoch": 0.13981763, "global_step/max_steps": "46/329", "percentage": "13.98%", "elapsed_time": "49m 59s", "remaining_time": "5h 7m 33s"}
-{"loss": 0.52075195, "grad_norm": 3.60181006, "learning_rate": 9.53e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015388, "rewards/chosen": -0.08154297, "rewards/rejected": -0.09472656, "rewards/accuracies": 1.0, "rewards/margins": 0.01318359, "logps/rejected": -0.9453125, "logps/chosen": -0.81640625, "logits/rejected": 0.15722656, "logits/chosen": -0.23925781, "nll_loss": 0.81640625, "log_odds_ratio": -0.58984375, "log_odds_chosen": 0.21875, "epoch": 0.14285714, "global_step/max_steps": "47/329", "percentage": "14.29%", "elapsed_time": "50m 47s", "remaining_time": "5h 4m 45s"}
-{"loss": 0.47900391, "grad_norm": 2.62579317, "learning_rate": 9.49e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015451, "rewards/chosen": -0.04370117, "rewards/rejected": -0.03686523, "rewards/accuracies": 0.0, "rewards/margins": -0.00683594, "logps/rejected": -0.36914062, "logps/chosen": -0.4375, "logits/rejected": 0.66015625, "logits/chosen": 0.68359375, "nll_loss": 0.43945312, "log_odds_ratio": -0.8046875, "log_odds_chosen": -0.20898438, "epoch": 0.14589666, "global_step/max_steps": "48/329", "percentage": "14.59%", "elapsed_time": "51m 39s", "remaining_time": "5h 2m 26s"}
-{"loss": 0.43115234, "grad_norm": 3.17159777, "learning_rate": 9.46e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015583, "rewards/chosen": -0.05029297, "rewards/rejected": -0.04516602, "rewards/accuracies": 0.0, "rewards/margins": -0.00512695, "logps/rejected": -0.45117188, "logps/chosen": -0.50390625, "logits/rejected": 1.078125, "logits/chosen": -0.6015625, "nll_loss": 0.50390625, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.13867188, "epoch": 0.14893617, "global_step/max_steps": "49/329", "percentage": "14.89%", "elapsed_time": "52m 17s", "remaining_time": "4h 58m 49s"}
-{"loss": 0.40551758, "grad_norm": 2.99144395, "learning_rate": 9.43e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015667, "rewards/chosen": -0.03833008, "rewards/rejected": -0.04418945, "rewards/accuracies": 1.0, "rewards/margins": 0.00585938, "logps/rejected": -0.44140625, "logps/chosen": -0.3828125, "logits/rejected": 1.0546875, "logits/chosen": 0.80859375, "nll_loss": 0.3828125, "log_odds_ratio": -0.609375, "log_odds_chosen": 0.17578125, "epoch": 0.15197568, "global_step/max_steps": "50/329", "percentage": "15.20%", "elapsed_time": "53m 4s", "remaining_time": "4h 56m 9s"}
-{"eval_loss": 0.40471885, "eval_runtime": 141.2022, "eval_samples_per_second": 0.574, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03548362, "eval_rewards/rejected": -0.04433372, "eval_rewards/accuracies": 0.72727275, "eval_rewards/margins": 0.00884455, "eval_logps/rejected": -0.44335938, "eval_logps/chosen": -0.35493609, "eval_logits/rejected": 0.69318181, "eval_logits/chosen": 0.50608134, "eval_nll_loss": 0.35475853, "eval_log_odds_ratio": -0.59197444, "eval_log_odds_chosen": 0.28995028, "epoch": 0.15197568, "global_step/max_steps": "50/329", "percentage": "15.20%", "elapsed_time": "55m 25s", "remaining_time": "5h 9m 17s"}
-{"loss": 0.4765625, "grad_norm": 2.66326494, "learning_rate": 9.39e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014793, "rewards/chosen": -0.03759766, "rewards/rejected": -0.03833008, "rewards/accuracies": 1.0, "rewards/margins": 0.00073242, "logps/rejected": -0.3828125, "logps/chosen": -0.37695312, "logits/rejected": 1.140625, "logits/chosen": 0.06542969, "nll_loss": 0.37695312, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.1550152, "global_step/max_steps": "51/329", "percentage": "15.50%", "elapsed_time": "57m 20s", "remaining_time": "5h 12m 34s"}
-{"loss": 0.34051514, "grad_norm": 2.14195901, "learning_rate": 9.36e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014818, "rewards/chosen": -0.02954102, "rewards/rejected": -0.03344727, "rewards/accuracies": 1.0, "rewards/margins": 0.00390625, "logps/rejected": -0.33398438, "logps/chosen": -0.29492188, "logits/rejected": 1.0625, "logits/chosen": 1.0625, "nll_loss": 0.29492188, "log_odds_ratio": -0.625, "log_odds_chosen": 0.1484375, "epoch": 0.15805471, "global_step/max_steps": "52/329", "percentage": "15.81%", "elapsed_time": "58m 22s", "remaining_time": "5h 10m 57s"}
-{"loss": 0.47961426, "grad_norm": 3.21076807, "learning_rate": 9.32e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01494, "rewards/chosen": -0.00775146, "rewards/rejected": -0.02770996, "rewards/accuracies": 1.0, "rewards/margins": 0.02001953, "logps/rejected": -0.27734375, "logps/chosen": -0.07763672, "logits/rejected": 0.56640625, "logits/chosen": 0.13867188, "nll_loss": 0.07763672, "log_odds_ratio": -0.22753906, "log_odds_chosen": 1.375, "epoch": 0.16109422, "global_step/max_steps": "53/329", "percentage": "16.11%", "elapsed_time": "59m 0s", "remaining_time": "5h 7m 18s"}
-{"loss": 0.40112305, "grad_norm": 2.34634184, "learning_rate": 9.29e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015009, "rewards/chosen": -0.02600098, "rewards/rejected": -0.0246582, "rewards/accuracies": 0.0, "rewards/margins": -0.00134277, "logps/rejected": -0.24609375, "logps/chosen": -0.25976562, "logits/rejected": 0.8671875, "logits/chosen": 0.8515625, "nll_loss": 0.25976562, "log_odds_ratio": -0.73046875, "log_odds_chosen": -0.06835938, "epoch": 0.16413374, "global_step/max_steps": "54/329", "percentage": "16.41%", "elapsed_time": "59m 51s", "remaining_time": "5h 4m 47s"}
-{"loss": 0.48168945, "grad_norm": 2.55802422, "learning_rate": 9.26e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01513, "rewards/chosen": -0.02966309, "rewards/rejected": -0.03027344, "rewards/accuracies": 1.0, "rewards/margins": 0.00061035, "logps/rejected": -0.30273438, "logps/chosen": -0.296875, "logits/rejected": 0.7421875, "logits/chosen": 0.6796875, "nll_loss": 0.29492188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.16717325, "global_step/max_steps": "55/329", "percentage": "16.72%", "elapsed_time": "1h 0m 28s", "remaining_time": "5h 1m 16s"}
-{"loss": 0.39550781, "grad_norm": 2.76143174, "learning_rate": 9.22e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015289, "rewards/chosen": -0.03759766, "rewards/rejected": -0.03857422, "rewards/accuracies": 1.0, "rewards/margins": 0.00097656, "logps/rejected": -0.38671875, "logps/chosen": -0.37695312, "logits/rejected": 0.7109375, "logits/chosen": 0.82421875, "nll_loss": 0.375, "log_odds_ratio": -0.67578125, "log_odds_chosen": 0.03320312, "epoch": 0.17021277, "global_step/max_steps": "56/329", "percentage": "17.02%", "elapsed_time": "1h 0m 56s", "remaining_time": "4h 57m 3s"}
-{"loss": 0.41088867, "grad_norm": 1.97359404, "learning_rate": 9.19e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015422, "rewards/chosen": -0.02404785, "rewards/rejected": -0.03955078, "rewards/accuracies": 1.0, "rewards/margins": 0.01550293, "logps/rejected": -0.39648438, "logps/chosen": -0.24023438, "logits/rejected": 0.55859375, "logits/chosen": 0.59375, "nll_loss": 0.24023438, "log_odds_ratio": -0.4453125, "log_odds_chosen": 0.578125, "epoch": 0.17325228, "global_step/max_steps": "57/329", "percentage": "17.33%", "elapsed_time": "1h 1m 29s", "remaining_time": "4h 53m 24s"}
-{"loss": 0.3314209, "grad_norm": 2.10131649, "learning_rate": 9.16e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015522, "rewards/chosen": -0.02661133, "rewards/rejected": -0.02490234, "rewards/accuracies": 0.0, "rewards/margins": -0.00170898, "logps/rejected": -0.24902344, "logps/chosen": -0.265625, "logits/rejected": 0.76953125, "logits/chosen": 0.73046875, "nll_loss": 0.265625, "log_odds_ratio": -0.73828125, "log_odds_chosen": -0.08691406, "epoch": 0.17629179, "global_step/max_steps": "58/329", "percentage": "17.63%", "elapsed_time": "1h 2m 9s", "remaining_time": "4h 50m 27s"}
-{"loss": 0.33679199, "grad_norm": 2.19148879, "learning_rate": 9.12e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015556, "rewards/chosen": -0.04199219, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.00048828, "logps/rejected": -0.42578125, "logps/chosen": -0.41992188, "logits/rejected": 0.7265625, "logits/chosen": 0.43359375, "nll_loss": 0.41992188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.17933131, "global_step/max_steps": "59/329", "percentage": "17.93%", "elapsed_time": "1h 3m 6s", "remaining_time": "4h 48m 45s"}
-{"loss": 0.40551758, "grad_norm": 2.98417344, "learning_rate": 9.09e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015665, "rewards/chosen": -0.04248047, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.0, "rewards/margins": -0.00463867, "logps/rejected": -0.37890625, "logps/chosen": -0.42578125, "logits/rejected": 0.83984375, "logits/chosen": 0.3125, "nll_loss": 0.42382812, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.140625, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 3m 43s", "remaining_time": "4h 45m 41s"}
-{"eval_loss": 0.38621238, "eval_runtime": 141.2637, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03542259, "eval_rewards/rejected": -0.04432262, "eval_rewards/accuracies": 0.63636363, "eval_rewards/margins": 0.00890004, "eval_logps/rejected": -0.44335938, "eval_logps/chosen": -0.35400391, "eval_logits/rejected": 0.70685369, "eval_logits/chosen": 0.50732422, "eval_nll_loss": 0.35418147, "eval_log_odds_ratio": -0.58638138, "eval_log_odds_chosen": 0.3046875, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 6m 4s", "remaining_time": "4h 56m 15s"}
-{"loss": 0.44628906, "grad_norm": 2.31816253, "learning_rate": 9.05e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01493, "rewards/chosen": -0.04833984, "rewards/rejected": -0.03759766, "rewards/accuracies": 0.0, "rewards/margins": -0.01074219, "logps/rejected": -0.375, "logps/chosen": -0.48242188, "logits/rejected": 0.27539062, "logits/chosen": 0.7578125, "nll_loss": 0.48242188, "log_odds_ratio": -0.859375, "log_odds_chosen": -0.31054688, "epoch": 0.18541033, "global_step/max_steps": "61/329", "percentage": "18.54%", "elapsed_time": "1h 7m 58s", "remaining_time": "4h 58m 40s"}
-{"loss": 0.43273926, "grad_norm": 4.13422499, "learning_rate": 9.02e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014951, "rewards/chosen": -0.06054688, "rewards/rejected": -0.03979492, "rewards/accuracies": 0.0, "rewards/margins": -0.02075195, "logps/rejected": -0.3984375, "logps/chosen": -0.60546875, "logits/rejected": 0.4140625, "logits/chosen": 0.45507812, "nll_loss": 0.60546875, "log_odds_ratio": -0.9921875, "log_odds_chosen": -0.53125, "epoch": 0.18844985, "global_step/max_steps": "62/329", "percentage": "18.84%", "elapsed_time": "1h 9m 0s", "remaining_time": "4h 57m 8s"}
-{"loss": 0.39550781, "grad_norm": 2.83271886, "learning_rate": 8.99e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014976, "rewards/chosen": -0.01953125, "rewards/rejected": -0.02697754, "rewards/accuracies": 1.0, "rewards/margins": 0.00744629, "logps/rejected": -0.26953125, "logps/chosen": -0.1953125, "logits/rejected": 0.63671875, "logits/chosen": 0.69921875, "nll_loss": 0.19628906, "log_odds_ratio": -0.52734375, "log_odds_chosen": 0.36328125, "epoch": 0.19148936, "global_step/max_steps": "63/329", "percentage": "19.15%", "elapsed_time": "1h 9m 59s", "remaining_time": "4h 55m 32s"}
-{"loss": 0.41711426, "grad_norm": 2.09376413, "learning_rate": 8.95e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015099, "rewards/chosen": -0.0480957, "rewards/rejected": -0.06201172, "rewards/accuracies": 1.0, "rewards/margins": 0.01391602, "logps/rejected": -0.62109375, "logps/chosen": -0.48046875, "logits/rejected": 1.0859375, "logits/chosen": 0.9140625, "nll_loss": 0.47851562, "log_odds_ratio": -0.54296875, "log_odds_chosen": 0.328125, "epoch": 0.19452888, "global_step/max_steps": "64/329", "percentage": "19.45%", "elapsed_time": "1h 10m 31s", "remaining_time": "4h 52m 2s"}
-{"loss": 0.4362793, "grad_norm": 1.80230089, "learning_rate": 8.92e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015114, "rewards/chosen": -0.03930664, "rewards/rejected": -0.06494141, "rewards/accuracies": 1.0, "rewards/margins": 0.02563477, "logps/rejected": -0.6484375, "logps/chosen": -0.39257812, "logits/rejected": 1.03125, "logits/chosen": 0.90625, "nll_loss": 0.39257812, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.640625, "epoch": 0.19756839, "global_step/max_steps": "65/329", "percentage": "19.76%", "elapsed_time": "1h 11m 33s", "remaining_time": "4h 50m 39s"}
-{"loss": 0.36950684, "grad_norm": 3.48623789, "learning_rate": 8.89e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015212, "rewards/chosen": -0.03442383, "rewards/rejected": -0.03442383, "rewards/accuracies": 0.0, "rewards/margins": 0.0, "logps/rejected": -0.34375, "logps/chosen": -0.34375, "logits/rejected": 0.6796875, "logits/chosen": 0.56640625, "nll_loss": 0.34375, "log_odds_ratio": -0.69140625, "log_odds_chosen": 0.0, "epoch": 0.2006079, "global_step/max_steps": "66/329", "percentage": "20.06%", "elapsed_time": "1h 12m 11s", "remaining_time": "4h 47m 41s"}
-{"loss": 0.35998535, "grad_norm": 4.1067186, "learning_rate": 8.85e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015302, "rewards/chosen": -0.0213623, "rewards/rejected": -0.05737305, "rewards/accuracies": 1.0, "rewards/margins": 0.03613281, "logps/rejected": -0.57421875, "logps/chosen": -0.21386719, "logits/rejected": 0.51953125, "logits/chosen": 0.41601562, "nll_loss": 0.21386719, "log_odds_ratio": -0.26757812, "log_odds_chosen": 1.1875, "epoch": 0.20364742, "global_step/max_steps": "67/329", "percentage": "20.36%", "elapsed_time": "1h 12m 51s", "remaining_time": "4h 44m 54s"}
-{"loss": 0.43164062, "grad_norm": 2.28010319, "learning_rate": 8.82e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015329, "rewards/chosen": -0.0378418, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.0065918, "logps/rejected": -0.44335938, "logps/chosen": -0.37890625, "logits/rejected": 0.66015625, "logits/chosen": 0.7265625, "nll_loss": 0.37695312, "log_odds_ratio": -0.60546875, "log_odds_chosen": 0.18945312, "epoch": 0.20668693, "global_step/max_steps": "68/329", "percentage": "20.67%", "elapsed_time": "1h 13m 49s", "remaining_time": "4h 43m 20s"}
-{"loss": 0.41162109, "grad_norm": 8.88037536, "learning_rate": 8.78e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015325, "rewards/chosen": -0.04443359, "rewards/rejected": -0.06054688, "rewards/accuracies": 1.0, "rewards/margins": 0.01611328, "logps/rejected": -0.60546875, "logps/chosen": -0.44335938, "logits/rejected": 1.0625, "logits/chosen": 0.9765625, "nll_loss": 0.44140625, "log_odds_ratio": -0.515625, "log_odds_chosen": 0.39257812, "epoch": 0.20972644, "global_step/max_steps": "69/329", "percentage": "20.97%", "elapsed_time": "1h 14m 55s", "remaining_time": "4h 42m 19s"}
-{"loss": 0.43383789, "grad_norm": 4.09660895, "learning_rate": 8.75e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015482, "rewards/chosen": -0.06347656, "rewards/rejected": -0.04101562, "rewards/accuracies": 0.0, "rewards/margins": -0.02246094, "logps/rejected": -0.41015625, "logps/chosen": -0.6328125, "logits/rejected": 0.41601562, "logits/chosen": 0.19433594, "nll_loss": 0.6328125, "log_odds_ratio": -1.015625, "log_odds_chosen": -0.55859375, "epoch": 0.21276596, "global_step/max_steps": "70/329", "percentage": "21.28%", "elapsed_time": "1h 15m 14s", "remaining_time": "4h 38m 24s"}
-{"eval_loss": 0.38610387, "eval_runtime": 141.5462, "eval_samples_per_second": 0.572, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03581099, "eval_rewards/rejected": -0.04599831, "eval_rewards/accuracies": 0.63636363, "eval_rewards/margins": 0.01018732, "eval_logps/rejected": -0.4601385, "eval_logps/chosen": -0.35795453, "eval_logits/rejected": 0.65514028, "eval_logits/chosen": 0.46897194, "eval_nll_loss": 0.35786578, "eval_log_odds_ratio": -0.58726919, "eval_log_odds_chosen": 0.30273438, "epoch": 0.21276596, "global_step/max_steps": "70/329", "percentage": "21.28%", "elapsed_time": "1h 17m 36s", "remaining_time": "4h 47m 8s"}
-{"loss": 0.38415527, "grad_norm": 3.11137735, "learning_rate": 8.72e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014955, "rewards/chosen": -0.0222168, "rewards/rejected": -0.05200195, "rewards/accuracies": 1.0, "rewards/margins": 0.02978516, "logps/rejected": -0.51953125, "logps/chosen": -0.22167969, "logits/rejected": 0.3359375, "logits/chosen": 0.45703125, "nll_loss": 0.22070312, "log_odds_ratio": -0.30859375, "log_odds_chosen": 1.015625, "epoch": 0.21580547, "global_step/max_steps": "71/329", "percentage": "21.58%", "elapsed_time": "1h 19m 0s", "remaining_time": "4h 47m 6s"}
-{"loss": 0.34295654, "grad_norm": 1.65725304, "learning_rate": 8.68e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015005, "rewards/chosen": -0.04614258, "rewards/rejected": -0.03955078, "rewards/accuracies": 0.0, "rewards/margins": -0.0065918, "logps/rejected": -0.39453125, "logps/chosen": -0.4609375, "logits/rejected": 0.6171875, "logits/chosen": 0.72265625, "nll_loss": 0.4609375, "log_odds_ratio": -0.796875, "log_odds_chosen": -0.19921875, "epoch": 0.21884498, "global_step/max_steps": "72/329", "percentage": "21.88%", "elapsed_time": "1h 19m 51s", "remaining_time": "4h 45m 3s"}
-{"loss": 0.44897461, "grad_norm": 2.40945423, "learning_rate": 8.65e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015094, "rewards/chosen": -0.04638672, "rewards/rejected": -0.03369141, "rewards/accuracies": 0.0, "rewards/margins": -0.01269531, "logps/rejected": -0.3359375, "logps/chosen": -0.46484375, "logits/rejected": 0.77734375, "logits/chosen": 0.32421875, "nll_loss": 0.46484375, "log_odds_ratio": -0.91015625, "log_odds_chosen": -0.39453125, "epoch": 0.2218845, "global_step/max_steps": "73/329", "percentage": "22.19%", "elapsed_time": "1h 20m 29s", "remaining_time": "4h 42m 16s"}
-{"loss": 0.34643555, "grad_norm": 1.96284651, "learning_rate": 8.61e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015159, "rewards/chosen": -0.02929688, "rewards/rejected": -0.04858398, "rewards/accuracies": 1.0, "rewards/margins": 0.01928711, "logps/rejected": -0.48632812, "logps/chosen": -0.29296875, "logits/rejected": 1.0625, "logits/chosen": 0.99609375, "nll_loss": 0.29296875, "log_odds_ratio": -0.43359375, "log_odds_chosen": 0.609375, "epoch": 0.22492401, "global_step/max_steps": "74/329", "percentage": "22.49%", "elapsed_time": "1h 21m 14s", "remaining_time": "4h 39m 57s"}
-{"loss": 0.33776855, "grad_norm": 1.87658427, "learning_rate": 8.58e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01521, "rewards/chosen": -0.01733398, "rewards/rejected": -0.04223633, "rewards/accuracies": 1.0, "rewards/margins": 0.02490234, "logps/rejected": -0.421875, "logps/chosen": -0.17285156, "logits/rejected": 0.38085938, "logits/chosen": -0.1171875, "nll_loss": 0.17285156, "log_odds_ratio": -0.30859375, "log_odds_chosen": 1.0078125, "epoch": 0.22796353, "global_step/max_steps": "75/329", "percentage": "22.80%", "elapsed_time": "1h 22m 4s", "remaining_time": "4h 37m 56s"}
-{"loss": 0.32189941, "grad_norm": 2.25169317, "learning_rate": 8.55e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015242, "rewards/chosen": -0.05664062, "rewards/rejected": -0.12890625, "rewards/accuracies": 1.0, "rewards/margins": 0.07226562, "logps/rejected": -1.2890625, "logps/chosen": -0.56640625, "logits/rejected": 0.96875, "logits/chosen": 0.79296875, "nll_loss": 0.5625, "log_odds_ratio": -0.2578125, "log_odds_chosen": 1.234375, "epoch": 0.23100304, "global_step/max_steps": "76/329", "percentage": "23.10%", "elapsed_time": "1h 22m 59s", "remaining_time": "4h 36m 15s"}
-{"loss": 0.47460938, "grad_norm": 2.50027676, "learning_rate": 8.51e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015241, "rewards/chosen": -0.04223633, "rewards/rejected": -0.06176758, "rewards/accuracies": 1.0, "rewards/margins": 0.01953125, "logps/rejected": -0.6171875, "logps/chosen": -0.421875, "logits/rejected": 1.0078125, "logits/chosen": 0.93359375, "nll_loss": 0.421875, "log_odds_ratio": -0.4765625, "log_odds_chosen": 0.4921875, "epoch": 0.23404255, "global_step/max_steps": "77/329", "percentage": "23.40%", "elapsed_time": "1h 24m 5s", "remaining_time": "4h 35m 11s"}
-{"loss": 0.29016113, "grad_norm": 2.21216694, "learning_rate": 8.48e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015298, "rewards/chosen": -0.01220703, "rewards/rejected": -0.0267334, "rewards/accuracies": 1.0, "rewards/margins": 0.01452637, "logps/rejected": -0.26757812, "logps/chosen": -0.12207031, "logits/rejected": 0.85546875, "logits/chosen": -0.23242188, "nll_loss": 0.12158203, "log_odds_ratio": -0.3515625, "log_odds_chosen": 0.86328125, "epoch": 0.23708207, "global_step/max_steps": "78/329", "percentage": "23.71%", "elapsed_time": "1h 24m 51s", "remaining_time": "4h 33m 5s"}
-{"loss": 0.34313965, "grad_norm": 2.48498459, "learning_rate": 8.45e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015376, "rewards/chosen": -0.03662109, "rewards/rejected": -0.06103516, "rewards/accuracies": 1.0, "rewards/margins": 0.02441406, "logps/rejected": -0.609375, "logps/chosen": -0.36523438, "logits/rejected": 0.99609375, "logits/chosen": 0.953125, "nll_loss": 0.36328125, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.6484375, "epoch": 0.24012158, "global_step/max_steps": "79/329", "percentage": "24.01%", "elapsed_time": "1h 25m 31s", "remaining_time": "4h 30m 37s"}
-{"loss": 0.33691406, "grad_norm": 2.50369791, "learning_rate": 8.41e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015391, "rewards/chosen": -0.03295898, "rewards/rejected": -0.02270508, "rewards/accuracies": 0.0, "rewards/margins": -0.01025391, "logps/rejected": -0.2265625, "logps/chosen": -0.33007812, "logits/rejected": 0.46289062, "logits/chosen": 0.53515625, "nll_loss": 0.33007812, "log_odds_ratio": -0.9296875, "log_odds_chosen": -0.43164062, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 26m 30s", "remaining_time": "4h 29m 16s"}
-{"eval_loss": 0.37027392, "eval_runtime": 141.3583, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.0349565, "eval_rewards/rejected": -0.04730779, "eval_rewards/accuracies": 0.54545456, "eval_rewards/margins": 0.0123291, "eval_logps/rejected": -0.47274503, "eval_logps/chosen": -0.34925425, "eval_logits/rejected": 0.6041593, "eval_logits/chosen": 0.40482953, "eval_nll_loss": 0.34969816, "eval_log_odds_ratio": -0.59232956, "eval_log_odds_chosen": 0.31383169, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 28m 52s", "remaining_time": "4h 36m 36s"}
-{"loss": 0.29141235, "grad_norm": 2.14457193, "learning_rate": 8.38e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014863, "rewards/chosen": -0.03063965, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.01184082, "logps/rejected": -0.42382812, "logps/chosen": -0.30664062, "logits/rejected": 0.98046875, "logits/chosen": 0.97265625, "nll_loss": 0.30859375, "log_odds_ratio": -0.51953125, "log_odds_chosen": 0.375, "epoch": 0.24620061, "global_step/max_steps": "81/329", "percentage": "24.62%", "elapsed_time": "1h 30m 43s", "remaining_time": "4h 37m 45s"}
-{"loss": 0.40600586, "grad_norm": 2.55797078, "learning_rate": 8.34e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014933, "rewards/chosen": -0.01165771, "rewards/rejected": -0.07373047, "rewards/accuracies": 1.0, "rewards/margins": 0.06201172, "logps/rejected": -0.73828125, "logps/chosen": -0.11669922, "logits/rejected": 0.50390625, "logits/chosen": 0.20605469, "nll_loss": 0.11621094, "log_odds_ratio": -0.10693359, "log_odds_chosen": 2.1875, "epoch": 0.24924012, "global_step/max_steps": "82/329", "percentage": "24.92%", "elapsed_time": "1h 31m 24s", "remaining_time": "4h 35m 19s"}
-{"loss": 0.34484863, "grad_norm": 2.56287775, "learning_rate": 8.31e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014995, "rewards/chosen": -0.0133667, "rewards/rejected": -0.05126953, "rewards/accuracies": 1.0, "rewards/margins": 0.0378418, "logps/rejected": -0.51171875, "logps/chosen": -0.13378906, "logits/rejected": 0.13476562, "logits/chosen": 0.47070312, "nll_loss": 0.13378906, "log_odds_ratio": -0.19335938, "log_odds_chosen": 1.546875, "epoch": 0.25227964, "global_step/max_steps": "83/329", "percentage": "25.23%", "elapsed_time": "1h 32m 8s", "remaining_time": "4h 33m 5s"}
-{"loss": 0.27984619, "grad_norm": 1.86446951, "learning_rate": 8.28e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015078, "rewards/chosen": -0.02575684, "rewards/rejected": -0.11230469, "rewards/accuracies": 1.0, "rewards/margins": 0.08642578, "logps/rejected": -1.125, "logps/chosen": -0.2578125, "logits/rejected": 1.140625, "logits/chosen": 0.47070312, "nll_loss": 0.2578125, "log_odds_ratio": -0.13378906, "log_odds_chosen": 1.9609375, "epoch": 0.25531915, "global_step/max_steps": "84/329", "percentage": "25.53%", "elapsed_time": "1h 32m 44s", "remaining_time": "4h 30m 28s"}
-{"loss": 0.31011963, "grad_norm": 2.51877156, "learning_rate": 8.24e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015093, "rewards/chosen": -0.02990723, "rewards/rejected": -0.08203125, "rewards/accuracies": 1.0, "rewards/margins": 0.05224609, "logps/rejected": -0.8203125, "logps/chosen": -0.29882812, "logits/rejected": 1.1484375, "logits/chosen": 1.046875, "nll_loss": 0.296875, "log_odds_ratio": -0.2421875, "log_odds_chosen": 1.3046875, "epoch": 0.25835866, "global_step/max_steps": "85/329", "percentage": "25.84%", "elapsed_time": "1h 33m 44s", "remaining_time": "4h 29m 6s"}
-{"loss": 0.32727051, "grad_norm": 2.10151258, "learning_rate": 8.21e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015131, "rewards/chosen": -0.03613281, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.00830078, "logps/rejected": -0.44335938, "logps/chosen": -0.36132812, "logits/rejected": 0.83203125, "logits/chosen": 0.79296875, "nll_loss": 0.36132812, "log_odds_ratio": -0.57421875, "log_odds_chosen": 0.24609375, "epoch": 0.26139818, "global_step/max_steps": "86/329", "percentage": "26.14%", "elapsed_time": "1h 34m 36s", "remaining_time": "4h 27m 20s"}
-{"loss": 0.4039917, "grad_norm": 2.84432984, "learning_rate": 8.18e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015159, "rewards/chosen": -0.05078125, "rewards/rejected": -0.04223633, "rewards/accuracies": 0.0, "rewards/margins": -0.00854492, "logps/rejected": -0.421875, "logps/chosen": -0.5078125, "logits/rejected": 0.875, "logits/chosen": 0.515625, "nll_loss": 0.5078125, "log_odds_ratio": -0.81640625, "log_odds_chosen": -0.234375, "epoch": 0.26443769, "global_step/max_steps": "87/329", "percentage": "26.44%", "elapsed_time": "1h 35m 32s", "remaining_time": "4h 25m 45s"}
-{"loss": 0.40795898, "grad_norm": 2.2223277, "learning_rate": 8.14e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015228, "rewards/chosen": -0.03173828, "rewards/rejected": -0.04956055, "rewards/accuracies": 1.0, "rewards/margins": 0.01782227, "logps/rejected": -0.49609375, "logps/chosen": -0.31640625, "logits/rejected": 0.7578125, "logits/chosen": 0.8125, "nll_loss": 0.31640625, "log_odds_ratio": -0.45703125, "log_odds_chosen": 0.55078125, "epoch": 0.2674772, "global_step/max_steps": "88/329", "percentage": "26.75%", "elapsed_time": "1h 36m 11s", "remaining_time": "4h 23m 27s"}
-{"loss": 0.37896729, "grad_norm": 2.12277995, "learning_rate": 8.11e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015317, "rewards/chosen": -0.02246094, "rewards/rejected": -0.0324707, "rewards/accuracies": 1.0, "rewards/margins": 0.01000977, "logps/rejected": -0.32421875, "logps/chosen": -0.22460938, "logits/rejected": 0.29101562, "logits/chosen": 0.76953125, "nll_loss": 0.22460938, "log_odds_ratio": -0.5, "log_odds_chosen": 0.43554688, "epoch": 0.27051672, "global_step/max_steps": "89/329", "percentage": "27.05%", "elapsed_time": "1h 36m 43s", "remaining_time": "4h 20m 50s"}
-{"loss": 0.36132812, "grad_norm": 2.26651769, "learning_rate": 8.07e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015339, "rewards/chosen": -0.04492188, "rewards/rejected": -0.17382812, "rewards/accuracies": 1.0, "rewards/margins": 0.12890625, "logps/rejected": -1.734375, "logps/chosen": -0.44921875, "logits/rejected": 1.125, "logits/chosen": 0.9375, "nll_loss": 0.44921875, "log_odds_ratio": -0.11572266, "log_odds_chosen": 2.09375, "epoch": 0.27355623, "global_step/max_steps": "90/329", "percentage": "27.36%", "elapsed_time": "1h 37m 40s", "remaining_time": "4h 19m 23s"}

+{"loss": 0.35729143, "token_acc": 0.89395794, "grad_norm": 0.21384092, "learning_rate": 3e-07, "memory(GiB)": 768.5, "train_speed(iter/s)": 0.004678, "epoch": 0.00304414, "global_step/max_steps": "1/328", "percentage": "0.30%", "elapsed_time": "3m 30s", "remaining_time": "19h 9m 30s"}
+{"loss": 0.32265121, "token_acc": 0.89477082, "grad_norm": 0.10401434, "learning_rate": 6.1e-07, "memory(GiB)": 768.53, "train_speed(iter/s)": 0.007188, "epoch": 0.00608828, "global_step/max_steps": "2/328", "percentage": "0.61%", "elapsed_time": "4m 35s", "remaining_time": "12h 28m 14s"}
+{"loss": 0.33431894, "token_acc": 0.88896965, "grad_norm": 0.13479018, "learning_rate": 9.1e-07, "memory(GiB)": 768.53, "train_speed(iter/s)": 0.008617, "epoch": 0.00913242, "global_step/max_steps": "3/328", "percentage": "0.91%", "elapsed_time": "5m 45s", "remaining_time": "10h 23m 30s"}
+{"loss": 0.21555151, "token_acc": 0.92855823, "grad_norm": 0.0987763, "learning_rate": 1.21e-06, "memory(GiB)": 768.53, "train_speed(iter/s)": 0.010151, "epoch": 0.01217656, "global_step/max_steps": "4/328", "percentage": "1.22%", "elapsed_time": "6m 31s", "remaining_time": "8h 48m 9s"}
+{"loss": 0.25857142, "token_acc": 0.91168183, "grad_norm": 0.1142064, "learning_rate": 1.52e-06, "memory(GiB)": 768.53, "train_speed(iter/s)": 0.011455, "epoch": 0.0152207, "global_step/max_steps": "5/328", "percentage": "1.52%", "elapsed_time": "7m 13s", "remaining_time": "7h 46m 54s"}
+{"loss": 0.24284926, "token_acc": 0.91845185, "grad_norm": 0.09238362, "learning_rate": 1.82e-06, "memory(GiB)": 768.53, "train_speed(iter/s)": 0.01237, "epoch": 0.01826484, "global_step/max_steps": "6/328", "percentage": "1.83%", "elapsed_time": "8m 2s", "remaining_time": "7h 11m 19s"}
+{"loss": 0.20129141, "token_acc": 0.93152436, "grad_norm": 0.11056672, "learning_rate": 2.12e-06, "memory(GiB)": 768.55, "train_speed(iter/s)": 0.013217, "epoch": 0.02130898, "global_step/max_steps": "7/328", "percentage": "2.13%", "elapsed_time": "8m 46s", "remaining_time": "6h 42m 37s"}
+{"loss": 0.26141307, "token_acc": 0.91274165, "grad_norm": 0.09076461, "learning_rate": 2.42e-06, "memory(GiB)": 768.55, "train_speed(iter/s)": 0.013447, "epoch": 0.02435312, "global_step/max_steps": "8/328", "percentage": "2.44%", "elapsed_time": "9m 52s", "remaining_time": "6h 34m 43s"}
+{"loss": 0.25274417, "token_acc": 0.91281625, "grad_norm": 0.07585815, "learning_rate": 2.73e-06, "memory(GiB)": 768.55, "train_speed(iter/s)": 0.013856, "epoch": 0.02739726, "global_step/max_steps": "9/328", "percentage": "2.74%", "elapsed_time": "10m 46s", "remaining_time": "6h 22m 2s"}
+{"loss": 0.24568725, "token_acc": 0.91618446, "grad_norm": 0.09478283, "learning_rate": 3.03e-06, "memory(GiB)": 768.55, "train_speed(iter/s)": 0.014157, "epoch": 0.0304414, "global_step/max_steps": "10/328", "percentage": "3.05%", "elapsed_time": "11m 43s", "remaining_time": "6h 12m 52s"}
+{"eval_loss": 0.30681169, "eval_token_acc": 0.89584491, "eval_runtime": 247.1437, "eval_samples_per_second": 0.328, "eval_steps_per_second": 0.328, "epoch": 0.0304414, "global_step/max_steps": "10/328", "percentage": "3.05%", "elapsed_time": "15m 50s", "remaining_time": "8h 23m 51s"}
+{"loss": 0.26882207, "token_acc": 0.89675909, "grad_norm": 0.10335801, "learning_rate": 3.33e-06, "memory(GiB)": 768.55, "train_speed(iter/s)": 0.010964, "epoch": 0.03348554, "global_step/max_steps": "11/328", "percentage": "3.35%", "elapsed_time": "16m 40s", "remaining_time": "8h 0m 30s"}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb304458da934c460167c713e0581151a0ab2d5cb43649730f985f7d4a9ef096
-size 8248

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cbf4e59b7b424ef292a4078dbda221a4406c3652ba53be8253d0e4648ee22d6
+size 5880