Training in progress, step 10

Browse files

Files changed (5) hide show

adapter_config.json +6 -6
adapter_model.safetensors +1 -1
args.json +12 -12
logging.jsonl +11 -67
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "/root/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
@@ -14,7 +14,7 @@
   "loftq_config": {},
   "lora_alpha": 64,
   "lora_bias": false,
-  "lora_dropout": 0.2,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [],
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
-    "down_proj",
     "up_proj",
-    "o_proj",
     "k_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "/home/shadeform/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "loftq_config": {},
   "lora_alpha": 64,
   "lora_bias": false,
+  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [],
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "gate_proj",
     "up_proj",
     "k_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eef43ce4316674099e870be849acb3a0a06361061c542f2dca84ae139a16c51e
 size 6627156248

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4bac088cb62fd2c22971a44303ee0a1404586b364adff285f8f4b9a919d742e
 size 6627156248

args.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "model": "/root/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "model_type": "llama3_2",
   "model_revision": null,
   "task_type": "causal_lm",
@@ -57,7 +57,7 @@
   "stop_words": [],
   "logprobs": false,
   "top_logprobs": null,
-  "ckpt_dir": "/root/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "load_dataset_config": null,
   "lora_modules": [],
   "tuner_backend": "peft",
@@ -72,7 +72,7 @@
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
-  "output_dir": "/root/output/v1-20250211-084612",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
@@ -93,23 +93,23 @@
   "adam_beta2": 0.999,
   "adam_epsilon": 1e-08,
   "max_grad_norm": 1.0,
-  "num_train_epochs": 3.0,
   "max_steps": -1,
   "lr_scheduler_type": "linear",
   "lr_scheduler_kwargs": null,
-  "warmup_ratio": 0.1,
   "warmup_steps": 0,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
-  "logging_dir": "/root/output/v1-20250211-084612/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
   "logging_nan_inf_filter": true,
   "save_strategy": "steps",
   "save_steps": 10.0,
-  "save_total_limit": 2,
   "save_safetensors": true,
   "save_on_each_node": false,
   "save_only_model": false,
@@ -262,7 +262,7 @@
   "modules_to_save": [],
   "lora_rank": 256,
   "lora_alpha": 64,
-  "lora_dropout": 0.2,
   "lora_bias": "none",
   "lora_dtype": null,
   "lorap_lr_ratio": null,
@@ -365,9 +365,9 @@
   "global_world_size": 8,
   "local_world_size": 8,
   "model_suffix": "AGENTIC-TURBO-2-4-2025-PREVIEW",
-  "model_info": "ModelInfo(model_type='llama3_2', model_dir='/root/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, config=None, task_type='causal_lm', num_labels=None)",
-  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7fd3c15b2200>, model_arch='llama', architectures=['LlamaForCausalLM'], additional_saved_files=[], torch_dtype=None, is_multimodal=False, is_reward=False, task_type=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
-  "model_dir": "/root/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "hub": "<class 'swift.hub.hub.HFHub'>",
-  "training_args": "ORPOConfig(output_dir='/root/output/v1-20250211-084612', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=4, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=5e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=3.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.1, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/root/output/v1-20250211-084612/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/root/output/v1-20250211-084612', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 3, 'offload_optimizer': {'device': 'cpu', 'pin_memory': True}, 'offload_param': {'device': 'cpu', 'pin_memory': True}, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1000000000.0, 'reduce_bucket_size': 'auto', 'stage3_prefetch_bucket_size': 'auto', 'stage3_param_persistence_threshold': 'auto', 'stage3_max_live_parameters': 1000000000.0, 'stage3_max_reuse_distance': 1000000000.0, 'stage3_gather_16bit_weights_on_model_save': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, max_length=22000, max_prompt_length=None, max_completion_length=None, beta=0.1, disable_dropout=True, label_pad_token_id=None, padding_value=None, truncation_mode='keep_end', generate_during_eval=False, is_encoder_decoder=False, model_init_kwargs=None, dataset_num_proc=1, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora', optimizer=None, galore_config=None)"
 }

 {
+  "model": "/home/shadeform/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "model_type": "llama3_2",
   "model_revision": null,
   "task_type": "causal_lm",
   "stop_words": [],
   "logprobs": false,
   "top_logprobs": null,
+  "ckpt_dir": "/home/shadeform/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "load_dataset_config": null,
   "lora_modules": [],
   "tuner_backend": "peft",
   "custom_register_path": [],
   "ignore_args_error": false,
   "use_swift_lora": false,
+  "output_dir": "/home/shadeform/output/v3-20250212-063654",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
   "adam_beta2": 0.999,
   "adam_epsilon": 1e-08,
   "max_grad_norm": 1.0,
+  "num_train_epochs": 1.0,
   "max_steps": -1,
   "lr_scheduler_type": "linear",
   "lr_scheduler_kwargs": null,
+  "warmup_ratio": 0.01,
   "warmup_steps": 0,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
+  "logging_dir": "/home/shadeform/output/v3-20250212-063654/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 1,
   "logging_nan_inf_filter": true,
   "save_strategy": "steps",
   "save_steps": 10.0,
+  "save_total_limit": 10,
   "save_safetensors": true,
   "save_on_each_node": false,
   "save_only_model": false,
   "modules_to_save": [],
   "lora_rank": 256,
   "lora_alpha": 64,
+  "lora_dropout": 0.1,
   "lora_bias": "none",
   "lora_dtype": null,
   "lorap_lr_ratio": null,
   "global_world_size": 8,
   "local_world_size": 8,
   "model_suffix": "AGENTIC-TURBO-2-4-2025-PREVIEW",
+  "model_info": "ModelInfo(model_type='llama3_2', model_dir='/home/shadeform/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='llama3_2', model_groups=[ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.2-1B', hf_model_id='meta-llama/Llama-3.2-1B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B', hf_model_id='meta-llama/Llama-3.2-3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-1B-Instruct', hf_model_id='meta-llama/Llama-3.2-1B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='LLM-Research/Llama-3.2-3B-Instruct', hf_model_id='meta-llama/Llama-3.2-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='LLM-Research/Llama-3.3-70B-Instruct', hf_model_id='meta-llama/Llama-3.3-70B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', hf_model_id='unsloth/Llama-3.3-70B-Instruct-bnb-4bit', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='llama3_2', get_function=<function get_model_tokenizer_with_flash_attn at 0x7f81109be200>, model_arch='llama', architectures=['LlamaForCausalLM'], additional_saved_files=[], torch_dtype=None, is_multimodal=False, is_reward=False, task_type=None, ignore_patterns=[], requires=['transformers>=4.45'], tags=[])",
+  "model_dir": "/home/shadeform/.cache/huggingface/hub/models--TheAgenticAI--AGENTIC-TURBO-2-4-2025-PREVIEW/snapshots/6ce3b51c4cb3651afb10dff60fbf8f62df058d45",
   "hub": "<class 'swift.hub.hub.HFHub'>",
+  "training_args": "ORPOConfig(output_dir='/home/shadeform/output/v3-20250212-063654', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=4, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=5e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=1.0, max_steps=-1, lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>, lr_scheduler_kwargs=None, warmup_ratio=0.01, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/home/shadeform/output/v3-20250212-063654/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=1, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=10, save_total_limit=10, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=10, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='/home/shadeform/output/v3-20250212-063654', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 3, 'offload_optimizer': {'device': 'cpu', 'pin_memory': True}, 'offload_param': {'device': 'cpu', 'pin_memory': True}, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1000000000.0, 'reduce_bucket_size': 'auto', 'stage3_prefetch_bucket_size': 'auto', 'stage3_param_persistence_threshold': 'auto', 'stage3_max_live_parameters': 1000000000.0, 'stage3_max_reuse_distance': 1000000000.0, 'stage3_gather_16bit_weights_on_model_save': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=True, resume_from_checkpoint=None, hub_model_id='TheAgenticAI/LLAMA-3.3-70B-Reasoning', hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=True, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': True}, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy='steps', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, max_length=22000, max_prompt_length=None, max_completion_length=None, beta=0.1, disable_dropout=True, label_pad_token_id=None, padding_value=None, truncation_mode='keep_end', generate_during_eval=False, is_encoder_decoder=False, model_init_kwargs=None, dataset_num_proc=1, acc_strategy='token', sequence_parallel_size=1, check_model=True, train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1, fsdp_num=1, acc_steps=1, train_type='lora', optimizer=None, galore_config=None)"
 }

logging.jsonl CHANGED Viewed

@@ -1,67 +1,11 @@
-{"loss": 0.71170044, "grad_norm": 0.44154316, "learning_rate": 3.9e-07, "memory(GiB)": 66.67, "train_speed(iter/s)": 0.005, "rewards/chosen": -0.06085205, "rewards/rejected": -0.02545166, "rewards/accuracies": 0.0, "rewards/margins": -0.03536987, "logps/rejected": -0.25463867, "logps/chosen": -0.60742188, "logits/rejected": -0.55371094, "logits/chosen": -0.92871094, "nll_loss": 0.60791016, "log_odds_ratio": -1.3359375, "log_odds_chosen": -0.95947266, "epoch": 0.00234192, "global_step/max_steps": "1/1281", "percentage": "0.08%", "elapsed_time": "3m 4s", "remaining_time": "2d 17h 35m 26s"}
-{"loss": 0.71148682, "grad_norm": 0.30638629, "learning_rate": 7.8e-07, "memory(GiB)": 66.67, "train_speed(iter/s)": 0.006083, "rewards/chosen": -0.04333496, "rewards/rejected": -0.20187378, "rewards/accuracies": 0.25, "rewards/margins": 0.15856934, "logps/rejected": -2.02270508, "logps/chosen": -0.43359375, "logits/rejected": -0.6796875, "logits/chosen": -0.78808594, "nll_loss": 0.43457031, "log_odds_ratio": -0.99414062, "log_odds_chosen": 1.50390625, "epoch": 0.00468384, "global_step/max_steps": "2/1281", "percentage": "0.16%", "elapsed_time": "5m 13s", "remaining_time": "2d 7h 38m 39s"}
-{"loss": 0.72467041, "grad_norm": 0.30521369, "learning_rate": 1.16e-06, "memory(GiB)": 85.48, "train_speed(iter/s)": 0.005209, "rewards/chosen": -0.06536865, "rewards/rejected": -0.03079224, "rewards/accuracies": 0.25, "rewards/margins": -0.03460693, "logps/rejected": -0.30834961, "logps/chosen": -0.65478516, "logits/rejected": -0.60351562, "logits/chosen": -0.83789062, "nll_loss": 0.65429688, "log_odds_ratio": -1.29882812, "log_odds_chosen": -0.91894531, "epoch": 0.00702576, "global_step/max_steps": "3/1281", "percentage": "0.23%", "elapsed_time": "9m 20s", "remaining_time": "2d 18h 19m 4s"}
-{"loss": 0.59896851, "grad_norm": 0.18317574, "learning_rate": 1.55e-06, "memory(GiB)": 85.48, "train_speed(iter/s)": 0.005417, "rewards/chosen": -0.05342102, "rewards/rejected": -0.41574097, "rewards/accuracies": 0.25, "rewards/margins": 0.3621521, "logps/rejected": -4.14990234, "logps/chosen": -0.53442383, "logits/rejected": -0.58691406, "logits/chosen": -0.72314453, "nll_loss": 0.53344727, "log_odds_ratio": -0.99414062, "log_odds_chosen": 3.67822266, "epoch": 0.00936768, "global_step/max_steps": "4/1281", "percentage": "0.31%", "elapsed_time": "12m 2s", "remaining_time": "2d 16h 6m 6s"}
-{"loss": 0.64508057, "grad_norm": 0.18339162, "learning_rate": 1.94e-06, "memory(GiB)": 102.03, "train_speed(iter/s)": 0.005237, "rewards/chosen": -0.03771973, "rewards/rejected": -0.03320312, "rewards/accuracies": 0.25, "rewards/margins": -0.0045166, "logps/rejected": -0.33203125, "logps/chosen": -0.37695312, "logits/rejected": -0.46630859, "logits/chosen": -0.70458984, "nll_loss": 0.37695312, "log_odds_ratio": -0.78222656, "log_odds_chosen": -0.15576172, "epoch": 0.0117096, "global_step/max_steps": "5/1281", "percentage": "0.39%", "elapsed_time": "15m 39s", "remaining_time": "2d 18h 34m 35s"}
-{"loss": 0.58435059, "grad_norm": 0.18781863, "learning_rate": 2.33e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005452, "rewards/chosen": -0.04089355, "rewards/rejected": -0.02549744, "rewards/accuracies": 0.0, "rewards/margins": -0.01539612, "logps/rejected": -0.25512695, "logps/chosen": -0.40942383, "logits/rejected": -0.68115234, "logits/chosen": -0.89648438, "nll_loss": 0.40942383, "log_odds_ratio": -1.06933594, "log_odds_chosen": -0.63867188, "epoch": 0.01405152, "global_step/max_steps": "6/1281", "percentage": "0.47%", "elapsed_time": "18m 5s", "remaining_time": "2d 16h 2m 48s"}
-{"loss": 0.64916992, "grad_norm": 0.19073817, "learning_rate": 2.71e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005398, "rewards/chosen": -0.03863525, "rewards/rejected": -0.03204346, "rewards/accuracies": 0.5, "rewards/margins": -0.0065918, "logps/rejected": -0.32080078, "logps/chosen": -0.38574219, "logits/rejected": -0.57519531, "logits/chosen": -0.7890625, "nll_loss": 0.38720703, "log_odds_ratio": -0.86816406, "log_odds_chosen": -0.29589844, "epoch": 0.01639344, "global_step/max_steps": "7/1281", "percentage": "0.55%", "elapsed_time": "21m 21s", "remaining_time": "2d 16h 46m 8s"}
-{"loss": 0.57540894, "grad_norm": 0.17009707, "learning_rate": 3.1e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005079, "rewards/chosen": -0.04678345, "rewards/rejected": -0.03186035, "rewards/accuracies": 0.0, "rewards/margins": -0.01489258, "logps/rejected": -0.31835938, "logps/chosen": -0.46826172, "logits/rejected": -0.71386719, "logits/chosen": -0.87988281, "nll_loss": 0.47045898, "log_odds_ratio": -1.01660156, "log_odds_chosen": -0.53295898, "epoch": 0.01873536, "global_step/max_steps": "8/1281", "percentage": "0.62%", "elapsed_time": "25m 59s", "remaining_time": "2d 20h 56m 1s"}
-{"loss": 0.5715332, "grad_norm": 0.14418723, "learning_rate": 3.49e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004862, "rewards/chosen": -0.04602051, "rewards/rejected": -0.03567505, "rewards/accuracies": 0.25, "rewards/margins": -0.01034546, "logps/rejected": -0.35668945, "logps/chosen": -0.46044922, "logits/rejected": -0.97607422, "logits/chosen": -0.87011719, "nll_loss": 0.46044922, "log_odds_ratio": -0.90136719, "log_odds_chosen": -0.31298828, "epoch": 0.02107728, "global_step/max_steps": "9/1281", "percentage": "0.70%", "elapsed_time": "30m 35s", "remaining_time": "3d 0h 3m 57s"}
-{"loss": 0.54727173, "grad_norm": 0.13393623, "learning_rate": 3.88e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004846, "rewards/chosen": -0.03527832, "rewards/rejected": -0.49353027, "rewards/accuracies": 0.25, "rewards/margins": 0.45831299, "logps/rejected": -4.92724609, "logps/chosen": -0.35327148, "logits/rejected": -0.56445312, "logits/chosen": -0.82910156, "nll_loss": 0.35327148, "log_odds_ratio": -0.7265625, "log_odds_chosen": 4.79394531, "epoch": 0.0234192, "global_step/max_steps": "10/1281", "percentage": "0.78%", "elapsed_time": "34m 8s", "remaining_time": "3d 0h 18m 50s"}
-{"eval_loss": 0.66295749, "eval_runtime": 642.7006, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.05507674, "eval_rewards/rejected": -0.09295309, "eval_rewards/accuracies": 0.1509434, "eval_rewards/margins": 0.03781186, "eval_logps/rejected": -0.92890441, "eval_logps/chosen": -0.55074441, "eval_logits/rejected": -0.51498008, "eval_logits/chosen": -0.83470297, "eval_nll_loss": 0.55109447, "eval_log_odds_ratio": -1.0913558, "eval_log_odds_chosen": 0.03414284, "epoch": 0.0234192, "global_step/max_steps": "10/1281", "percentage": "0.78%", "elapsed_time": "44m 50s", "remaining_time": "3d 23h 0m 17s"}
-{"loss": 0.67330933, "grad_norm": 0.26671985, "learning_rate": 4.26e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.003801, "rewards/chosen": -0.06494141, "rewards/rejected": -0.04647827, "rewards/accuracies": 0.0, "rewards/margins": -0.01846313, "logps/rejected": -0.46459961, "logps/chosen": -0.64990234, "logits/rejected": -0.72802734, "logits/chosen": -0.83447266, "nll_loss": 0.65087891, "log_odds_ratio": -0.93164062, "log_odds_chosen": -0.41748047, "epoch": 0.02576112, "global_step/max_steps": "11/1281", "percentage": "0.86%", "elapsed_time": "47m 58s", "remaining_time": "3d 20h 18m 12s"}
-{"loss": 0.65026855, "grad_norm": 0.19848275, "learning_rate": 4.65e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.003792, "rewards/chosen": -0.06091309, "rewards/rejected": -0.0242157, "rewards/accuracies": 0.25, "rewards/margins": -0.03674316, "logps/rejected": -0.24243164, "logps/chosen": -0.60888672, "logits/rejected": -0.48754883, "logits/chosen": -1.01074219, "nll_loss": 0.61035156, "log_odds_ratio": -1.46289062, "log_odds_chosen": -1.09619141, "epoch": 0.02810304, "global_step/max_steps": "12/1281", "percentage": "0.94%", "elapsed_time": "52m 28s", "remaining_time": "3d 20h 29m 49s"}
-{"loss": 0.71780396, "grad_norm": 0.20173968, "learning_rate": 5.04e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.003937, "rewards/chosen": -0.04553223, "rewards/rejected": -0.17755127, "rewards/accuracies": 0.25, "rewards/margins": 0.13171387, "logps/rejected": -1.7734375, "logps/chosen": -0.45458984, "logits/rejected": -0.58300781, "logits/chosen": -0.84033203, "nll_loss": 0.45361328, "log_odds_ratio": -0.74511719, "log_odds_chosen": 1.41064453, "epoch": 0.03044496, "global_step/max_steps": "13/1281", "percentage": "1.01%", "elapsed_time": "54m 46s", "remaining_time": "3d 17h 2m 59s"}
-{"loss": 0.58898926, "grad_norm": 0.16854084, "learning_rate": 5.43e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.003961, "rewards/chosen": -0.04260254, "rewards/rejected": -0.15994263, "rewards/accuracies": 0.25, "rewards/margins": 0.11721802, "logps/rejected": -1.59960938, "logps/chosen": -0.42578125, "logits/rejected": -0.49023438, "logits/chosen": -0.79003906, "nll_loss": 0.42529297, "log_odds_ratio": -0.72753906, "log_odds_chosen": 1.22216797, "epoch": 0.03278689, "global_step/max_steps": "14/1281", "percentage": "1.09%", "elapsed_time": "58m 38s", "remaining_time": "3d 16h 27m 24s"}
-{"loss": 0.58551025, "grad_norm": 0.26222301, "learning_rate": 5.81e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004044, "rewards/chosen": -0.05529785, "rewards/rejected": -0.03878784, "rewards/accuracies": 0.0, "rewards/margins": -0.01651001, "logps/rejected": -0.38818359, "logps/chosen": -0.55273438, "logits/rejected": -0.87890625, "logits/chosen": -1.02050781, "nll_loss": 0.55224609, "log_odds_ratio": -0.96386719, "log_odds_chosen": -0.47998047, "epoch": 0.03512881, "global_step/max_steps": "15/1281", "percentage": "1.17%", "elapsed_time": "1h 1m 33s", "remaining_time": "3d 14h 36m 3s"}
-{"loss": 0.605896, "grad_norm": 0.18836583, "learning_rate": 6.2e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004168, "rewards/chosen": -0.04351807, "rewards/rejected": -0.34503174, "rewards/accuracies": 0.25, "rewards/margins": 0.30126953, "logps/rejected": -3.44262695, "logps/chosen": -0.43505859, "logits/rejected": -0.60986328, "logits/chosen": -0.69921875, "nll_loss": 0.43603516, "log_odds_ratio": -0.84667969, "log_odds_chosen": 3.20458984, "epoch": 0.03747073, "global_step/max_steps": "16/1281", "percentage": "1.25%", "elapsed_time": "1h 3m 42s", "remaining_time": "3d 11h 57m 34s"}
-{"loss": 0.58584595, "grad_norm": 0.30486479, "learning_rate": 6.59e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004311, "rewards/chosen": -0.04141235, "rewards/rejected": -0.02941895, "rewards/accuracies": 0.25, "rewards/margins": -0.01199341, "logps/rejected": -0.29394531, "logps/chosen": -0.4140625, "logits/rejected": -0.50976562, "logits/chosen": -0.76806641, "nll_loss": 0.4140625, "log_odds_ratio": -0.91601562, "log_odds_chosen": -0.38378906, "epoch": 0.03981265, "global_step/max_steps": "17/1281", "percentage": "1.33%", "elapsed_time": "1h 5m 27s", "remaining_time": "3d 9h 7m 13s"}
-{"loss": 0.59320068, "grad_norm": 0.14169565, "learning_rate": 6.98e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004392, "rewards/chosen": -0.04220581, "rewards/rejected": -0.02767944, "rewards/accuracies": 0.25, "rewards/margins": -0.01452637, "logps/rejected": -0.27709961, "logps/chosen": -0.42236328, "logits/rejected": -0.61816406, "logits/chosen": -0.64355469, "nll_loss": 0.42382812, "log_odds_ratio": -0.98242188, "log_odds_chosen": -0.48632812, "epoch": 0.04215457, "global_step/max_steps": "18/1281", "percentage": "1.41%", "elapsed_time": "1h 8m 2s", "remaining_time": "3d 7h 34m 25s"}
-{"loss": 0.65429688, "grad_norm": 0.16388831, "learning_rate": 7.36e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004458, "rewards/chosen": -0.06011963, "rewards/rejected": -0.03395081, "rewards/accuracies": 0.25, "rewards/margins": -0.02618408, "logps/rejected": -0.33911133, "logps/chosen": -0.6015625, "logits/rejected": -0.35339355, "logits/chosen": -0.93847656, "nll_loss": 0.60205078, "log_odds_ratio": -1.26318359, "log_odds_chosen": -0.73242188, "epoch": 0.04449649, "global_step/max_steps": "19/1281", "percentage": "1.48%", "elapsed_time": "1h 10m 46s", "remaining_time": "3d 6h 21m 10s"}
-{"loss": 0.59362793, "grad_norm": 0.58357763, "learning_rate": 7.75e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004521, "rewards/chosen": -0.04736328, "rewards/rejected": -0.25317383, "rewards/accuracies": 0.25, "rewards/margins": 0.20574951, "logps/rejected": -2.53588867, "logps/chosen": -0.47363281, "logits/rejected": -0.48962402, "logits/chosen": -0.78320312, "nll_loss": 0.47216797, "log_odds_ratio": -0.85839844, "log_odds_chosen": 2.02490234, "epoch": 0.04683841, "global_step/max_steps": "20/1281", "percentage": "1.56%", "elapsed_time": "1h 13m 28s", "remaining_time": "3d 5h 12m 45s"}
-{"eval_loss": 0.60351562, "eval_runtime": 641.8534, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.05049335, "eval_rewards/rejected": -0.07673041, "eval_rewards/accuracies": 0.1509434, "eval_rewards/margins": 0.02624972, "eval_logps/rejected": -0.76708984, "eval_logps/chosen": -0.50484598, "eval_logits/rejected": -0.43351543, "eval_logits/chosen": -0.73570168, "eval_nll_loss": 0.50490123, "eval_log_odds_ratio": -1.04105711, "eval_log_odds_chosen": -0.06548496, "epoch": 0.04683841, "global_step/max_steps": "20/1281", "percentage": "1.56%", "elapsed_time": "1h 24m 10s", "remaining_time": "3d 16h 27m 14s"}
-{"loss": 0.57366943, "grad_norm": 0.14497812, "learning_rate": 8.14e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004005, "rewards/chosen": -0.0569458, "rewards/rejected": -0.03063965, "rewards/accuracies": 0.25, "rewards/margins": -0.02630615, "logps/rejected": -0.30639648, "logps/chosen": -0.56933594, "logits/rejected": -0.45800781, "logits/chosen": -0.69482422, "nll_loss": 0.5703125, "log_odds_ratio": -1.23632812, "log_odds_chosen": -0.80859375, "epoch": 0.04918033, "global_step/max_steps": "21/1281", "percentage": "1.64%", "elapsed_time": "1h 27m 7s", "remaining_time": "3d 15h 7m 51s"}
-{"loss": 0.54748535, "grad_norm": 0.12414515, "learning_rate": 8.53e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004052, "rewards/chosen": -0.04528809, "rewards/rejected": -0.02444458, "rewards/accuracies": 0.0, "rewards/margins": -0.02084351, "logps/rejected": -0.24462891, "logps/chosen": -0.453125, "logits/rejected": -0.40209961, "logits/chosen": -0.796875, "nll_loss": 0.45166016, "log_odds_ratio": -1.12695312, "log_odds_chosen": -0.69238281, "epoch": 0.05152225, "global_step/max_steps": "22/1281", "percentage": "1.72%", "elapsed_time": "1h 30m 14s", "remaining_time": "3d 14h 4m 11s"}
-{"loss": 0.54998779, "grad_norm": 0.12814115, "learning_rate": 8.91e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004114, "rewards/chosen": -0.04998779, "rewards/rejected": -0.02371216, "rewards/accuracies": 0.0, "rewards/margins": -0.02627563, "logps/rejected": -0.23706055, "logps/chosen": -0.49951172, "logits/rejected": -0.37939453, "logits/chosen": -0.63964844, "nll_loss": 0.49804688, "log_odds_ratio": -1.18554688, "log_odds_chosen": -0.79443359, "epoch": 0.05386417, "global_step/max_steps": "23/1281", "percentage": "1.80%", "elapsed_time": "1h 32m 54s", "remaining_time": "3d 12h 41m 41s"}
-{"loss": 0.65063477, "grad_norm": 0.18243355, "learning_rate": 9.3e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004192, "rewards/chosen": -0.04476929, "rewards/rejected": -0.45700073, "rewards/accuracies": 0.25, "rewards/margins": 0.41278076, "logps/rejected": -4.57739258, "logps/chosen": -0.44726562, "logits/rejected": -0.49432373, "logits/chosen": -0.69580078, "nll_loss": 0.44628906, "log_odds_ratio": -0.8671875, "log_odds_chosen": 4.12890625, "epoch": 0.05620609, "global_step/max_steps": "24/1281", "percentage": "1.87%", "elapsed_time": "1h 35m 9s", "remaining_time": "3d 11h 3m 55s"}
-{"loss": 0.53256226, "grad_norm": 0.22813727, "learning_rate": 9.69e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004223, "rewards/chosen": -0.03619385, "rewards/rejected": -0.32299805, "rewards/accuracies": 0.25, "rewards/margins": 0.28625488, "logps/rejected": -3.22216797, "logps/chosen": -0.36157227, "logits/rejected": -0.38720703, "logits/chosen": -0.69921875, "nll_loss": 0.36279297, "log_odds_ratio": -0.68164062, "log_odds_chosen": 3.08496094, "epoch": 0.05854801, "global_step/max_steps": "25/1281", "percentage": "1.95%", "elapsed_time": "1h 38m 24s", "remaining_time": "3d 10h 24m 19s"}
-{"loss": 0.5199585, "grad_norm": 0.15427108, "learning_rate": 1.008e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004306, "rewards/chosen": -0.04574585, "rewards/rejected": -0.02914429, "rewards/accuracies": 0.25, "rewards/margins": -0.01660156, "logps/rejected": -0.29150391, "logps/chosen": -0.45703125, "logits/rejected": -0.50683594, "logits/chosen": -0.72998047, "nll_loss": 0.45654297, "log_odds_ratio": -1.00488281, "log_odds_chosen": -0.51464844, "epoch": 0.06088993, "global_step/max_steps": "26/1281", "percentage": "2.03%", "elapsed_time": "1h 40m 21s", "remaining_time": "3d 8h 44m 34s"}
-{"loss": 0.51290894, "grad_norm": 0.14327918, "learning_rate": 1.047e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004361, "rewards/chosen": -0.05859375, "rewards/rejected": -0.02770996, "rewards/accuracies": 0.0, "rewards/margins": -0.03091431, "logps/rejected": -0.27709961, "logps/chosen": -0.58642578, "logits/rejected": -0.41548157, "logits/chosen": -0.6640625, "nll_loss": 0.58691406, "log_odds_ratio": -1.25585938, "log_odds_chosen": -0.90136719, "epoch": 0.06323185, "global_step/max_steps": "27/1281", "percentage": "2.11%", "elapsed_time": "1h 42m 55s", "remaining_time": "3d 7h 40m 13s"}
-{"loss": 0.58557129, "grad_norm": 0.12187042, "learning_rate": 1.085e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004384, "rewards/chosen": -0.04632568, "rewards/rejected": -0.02890015, "rewards/accuracies": 0.0, "rewards/margins": -0.01742554, "logps/rejected": -0.28955078, "logps/chosen": -0.46289062, "logits/rejected": -0.28991699, "logits/chosen": -0.48071289, "nll_loss": 0.46240234, "log_odds_ratio": -1.04101562, "log_odds_chosen": -0.55957031, "epoch": 0.06557377, "global_step/max_steps": "28/1281", "percentage": "2.19%", "elapsed_time": "1h 46m 11s", "remaining_time": "3d 7h 12m 10s"}
-{"loss": 0.53582764, "grad_norm": 0.11856092, "learning_rate": 1.124e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004414, "rewards/chosen": -0.02923584, "rewards/rejected": -0.19833374, "rewards/accuracies": 0.25, "rewards/margins": 0.16958618, "logps/rejected": -1.97949219, "logps/chosen": -0.29248047, "logits/rejected": -0.25146484, "logits/chosen": -0.41552734, "nll_loss": 0.29248047, "log_odds_ratio": -0.6640625, "log_odds_chosen": 1.86157227, "epoch": 0.06791569, "global_step/max_steps": "29/1281", "percentage": "2.26%", "elapsed_time": "1h 49m 14s", "remaining_time": "3d 6h 36m 10s"}
-{"loss": 0.5987854, "grad_norm": 0.12445131, "learning_rate": 1.163e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004477, "rewards/chosen": -0.03991699, "rewards/rejected": -0.40048218, "rewards/accuracies": 0.25, "rewards/margins": 0.36141968, "logps/rejected": -4.00097656, "logps/chosen": -0.39941406, "logits/rejected": -0.20629883, "logits/chosen": -0.38500977, "nll_loss": 0.39941406, "log_odds_ratio": -0.67480469, "log_odds_chosen": 3.7109375, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "1h 51m 24s", "remaining_time": "3d 5h 25m 55s"}
-{"eval_loss": 0.56994921, "eval_runtime": 642.2195, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04699477, "eval_rewards/rejected": -0.08173529, "eval_rewards/accuracies": 0.13207547, "eval_rewards/margins": 0.03477852, "eval_logps/rejected": -0.81732756, "eval_logps/chosen": -0.47000295, "eval_logits/rejected": -0.2889151, "eval_logits/chosen": -0.53823537, "eval_nll_loss": 0.46996608, "eval_log_odds_ratio": -1.02137387, "eval_log_odds_chosen": 0.02808078, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "2h 2m 7s", "remaining_time": "3d 12h 52m 15s"}
-{"loss": 0.47167969, "grad_norm": 0.12563924, "learning_rate": 1.202e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004117, "rewards/chosen": -0.04330444, "rewards/rejected": -0.02688599, "rewards/accuracies": 0.25, "rewards/margins": -0.01641846, "logps/rejected": -0.26879883, "logps/chosen": -0.43261719, "logits/rejected": -0.22250366, "logits/chosen": -0.46716309, "nll_loss": 0.43310547, "log_odds_ratio": -1.02441406, "log_odds_chosen": -0.53173828, "epoch": 0.07259953, "global_step/max_steps": "31/1281", "percentage": "2.42%", "elapsed_time": "2h 5m 14s", "remaining_time": "3d 12h 10m 23s"}
-{"loss": 0.52798462, "grad_norm": 0.13983111, "learning_rate": 1.24e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004168, "rewards/chosen": -0.04241943, "rewards/rejected": -0.22332764, "rewards/accuracies": 0.5, "rewards/margins": 0.18048096, "logps/rejected": -2.2355957, "logps/chosen": -0.42431641, "logits/rejected": -0.26611328, "logits/chosen": -0.55712891, "nll_loss": 0.42431641, "log_odds_ratio": -0.69921875, "log_odds_chosen": 1.8984375, "epoch": 0.07494145, "global_step/max_steps": "32/1281", "percentage": "2.50%", "elapsed_time": "2h 7m 42s", "remaining_time": "3d 11h 4m 46s"}
-{"loss": 0.51583862, "grad_norm": 0.13743874, "learning_rate": 1.279e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004221, "rewards/chosen": -0.03179932, "rewards/rejected": -0.67071533, "rewards/accuracies": 0.75, "rewards/margins": 0.63766479, "logps/rejected": -6.70141602, "logps/chosen": -0.31787109, "logits/rejected": -0.24389648, "logits/chosen": -0.33642578, "nll_loss": 0.31884766, "log_odds_ratio": -0.38867188, "log_odds_chosen": 6.94311523, "epoch": 0.07728337, "global_step/max_steps": "33/1281", "percentage": "2.58%", "elapsed_time": "2h 10m 3s", "remaining_time": "3d 9h 58m 21s"}
-{"loss": 0.51626587, "grad_norm": 0.17774898, "learning_rate": 1.318e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004284, "rewards/chosen": -0.05136108, "rewards/rejected": -0.04049683, "rewards/accuracies": 0.25, "rewards/margins": -0.01086426, "logps/rejected": -0.40429688, "logps/chosen": -0.51416016, "logits/rejected": -0.33911133, "logits/chosen": -0.47973633, "nll_loss": 0.515625, "log_odds_ratio": -0.95849609, "log_odds_chosen": -0.32324219, "epoch": 0.07962529, "global_step/max_steps": "34/1281", "percentage": "2.65%", "elapsed_time": "2h 12m 0s", "remaining_time": "3d 8h 41m 50s"}
-{"loss": 0.48684692, "grad_norm": 0.1624738, "learning_rate": 1.357e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004297, "rewards/chosen": -0.04205322, "rewards/rejected": -0.51467896, "rewards/accuracies": 0.25, "rewards/margins": 0.47259521, "logps/rejected": -5.15454102, "logps/chosen": -0.42138672, "logits/rejected": -0.29693604, "logits/chosen": -0.41064453, "nll_loss": 0.42285156, "log_odds_ratio": -0.82617188, "log_odds_chosen": 4.69384766, "epoch": 0.08196721, "global_step/max_steps": "35/1281", "percentage": "2.73%", "elapsed_time": "2h 15m 30s", "remaining_time": "3d 8h 24m 3s"}
-{"loss": 0.64358521, "grad_norm": 0.15048102, "learning_rate": 1.395e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004323, "rewards/chosen": -0.04992676, "rewards/rejected": -0.02493286, "rewards/accuracies": 0.0, "rewards/margins": -0.0249939, "logps/rejected": -0.24951172, "logps/chosen": -0.49853516, "logits/rejected": -0.24240112, "logits/chosen": -0.59765625, "nll_loss": 0.49951172, "log_odds_ratio": -1.15234375, "log_odds_chosen": -0.73388672, "epoch": 0.08430913, "global_step/max_steps": "36/1281", "percentage": "2.81%", "elapsed_time": "2h 18m 32s", "remaining_time": "3d 7h 51m 20s"}
-{"loss": 0.46051025, "grad_norm": 0.12343454, "learning_rate": 1.434e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.00433, "rewards/chosen": -0.03521729, "rewards/rejected": -0.0255127, "rewards/accuracies": 0.0, "rewards/margins": -0.00970459, "logps/rejected": -0.25488281, "logps/chosen": -0.35205078, "logits/rejected": -0.31665039, "logits/chosen": -0.42138672, "nll_loss": 0.3527832, "log_odds_ratio": -0.87792969, "log_odds_chosen": -0.328125, "epoch": 0.08665105, "global_step/max_steps": "37/1281", "percentage": "2.89%", "elapsed_time": "2h 22m 9s", "remaining_time": "3d 7h 39m 22s"}
-{"loss": 0.50921631, "grad_norm": 0.1270193, "learning_rate": 1.473e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004361, "rewards/chosen": -0.03393555, "rewards/rejected": -0.02868652, "rewards/accuracies": 0.25, "rewards/margins": -0.00524902, "logps/rejected": -0.28710938, "logps/chosen": -0.33935547, "logits/rejected": -0.35791016, "logits/chosen": -0.47851562, "nll_loss": 0.33984375, "log_odds_ratio": -0.82128906, "log_odds_chosen": -0.21630859, "epoch": 0.08899297, "global_step/max_steps": "38/1281", "percentage": "2.97%", "elapsed_time": "2h 24m 58s", "remaining_time": "3d 7h 2m 0s"}
-{"loss": 0.47821045, "grad_norm": 0.26142126, "learning_rate": 1.512e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004365, "rewards/chosen": -0.04025269, "rewards/rejected": -0.15631104, "rewards/accuracies": 0.25, "rewards/margins": 0.11587524, "logps/rejected": -1.56689453, "logps/chosen": -0.40258789, "logits/rejected": -0.16293335, "logits/chosen": -0.41589355, "nll_loss": 0.40185547, "log_odds_ratio": -0.75195312, "log_odds_chosen": 1.35888672, "epoch": 0.09133489, "global_step/max_steps": "39/1281", "percentage": "3.04%", "elapsed_time": "2h 28m 39s", "remaining_time": "3d 6h 54m 3s"}
-{"loss": 0.50769043, "grad_norm": 0.14049903, "learning_rate": 1.55e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004395, "rewards/chosen": -0.05560303, "rewards/rejected": -0.027771, "rewards/accuracies": 0.25, "rewards/margins": -0.02780151, "logps/rejected": -0.27783203, "logps/chosen": -0.55664062, "logits/rejected": -0.26611328, "logits/chosen": -0.61376953, "nll_loss": 0.5546875, "log_odds_ratio": -1.17773438, "log_odds_chosen": -0.75634766, "epoch": 0.09367681, "global_step/max_steps": "40/1281", "percentage": "3.12%", "elapsed_time": "2h 31m 25s", "remaining_time": "3d 6h 17m 58s"}
-{"eval_loss": 0.54541248, "eval_runtime": 642.0806, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04489654, "eval_rewards/rejected": -0.09570197, "eval_rewards/accuracies": 0.16981132, "eval_rewards/margins": 0.05081004, "eval_logps/rejected": -0.95734447, "eval_logps/chosen": -0.44903448, "eval_logits/rejected": -0.26981685, "eval_logits/chosen": -0.51291418, "eval_nll_loss": 0.44921875, "eval_log_odds_ratio": -0.98677033, "eval_log_odds_chosen": 0.21937647, "epoch": 0.09367681, "global_step/max_steps": "40/1281", "percentage": "3.12%", "elapsed_time": "2h 42m 7s", "remaining_time": "3d 11h 49m 58s"}
-{"loss": 0.55899048, "grad_norm": 0.17105363, "learning_rate": 1.589e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004123, "rewards/chosen": -0.03289795, "rewards/rejected": -1.04510498, "rewards/accuracies": 0.25, "rewards/margins": 1.01303101, "logps/rejected": -10.45092773, "logps/chosen": -0.32885742, "logits/rejected": -0.27050781, "logits/chosen": -0.44433594, "nll_loss": 0.32739258, "log_odds_ratio": -0.75488281, "log_odds_chosen": 10.17626953, "epoch": 0.09601874, "global_step/max_steps": "41/1281", "percentage": "3.20%", "elapsed_time": "2h 45m 28s", "remaining_time": "3d 11h 24m 50s"}
-{"loss": 0.55685425, "grad_norm": 0.19478773, "learning_rate": 1.628e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004155, "rewards/chosen": -0.04776001, "rewards/rejected": -0.45196533, "rewards/accuracies": 0.25, "rewards/margins": 0.40423584, "logps/rejected": -4.51586914, "logps/chosen": -0.47827148, "logits/rejected": -0.33740234, "logits/chosen": -0.515625, "nll_loss": 0.47875977, "log_odds_ratio": -0.91015625, "log_odds_chosen": 3.99169922, "epoch": 0.09836066, "global_step/max_steps": "42/1281", "percentage": "3.28%", "elapsed_time": "2h 48m 13s", "remaining_time": "3d 10h 42m 33s"}
-{"loss": 0.47839355, "grad_norm": 0.12849084, "learning_rate": 1.667e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.00416, "rewards/chosen": -0.04858398, "rewards/rejected": -0.95053101, "rewards/accuracies": 0.25, "rewards/margins": 0.90255737, "logps/rejected": -9.49780273, "logps/chosen": -0.48583984, "logits/rejected": -0.46972656, "logits/chosen": -0.58349609, "nll_loss": 0.48535156, "log_odds_ratio": -0.7890625, "log_odds_chosen": 9.04199219, "epoch": 0.10070258, "global_step/max_steps": "43/1281", "percentage": "3.36%", "elapsed_time": "2h 52m 1s", "remaining_time": "3d 10h 32m 38s"}
-{"loss": 0.43128967, "grad_norm": 0.12454039, "learning_rate": 1.705e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004207, "rewards/chosen": -0.02954102, "rewards/rejected": -0.02560425, "rewards/accuracies": 0.0, "rewards/margins": -0.00393677, "logps/rejected": -0.25610352, "logps/chosen": -0.29492188, "logits/rejected": -0.37597656, "logits/chosen": -0.38818359, "nll_loss": 0.29492188, "log_odds_ratio": -0.7734375, "log_odds_chosen": -0.15405273, "epoch": 0.1030445, "global_step/max_steps": "44/1281", "percentage": "3.43%", "elapsed_time": "2h 54m 3s", "remaining_time": "3d 9h 33m 26s"}
-{"loss": 0.49902344, "grad_norm": 0.14915697, "learning_rate": 1.744e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004261, "rewards/chosen": -0.03634644, "rewards/rejected": -1.38952637, "rewards/accuracies": 0.5, "rewards/margins": 1.35101318, "logps/rejected": -13.86376953, "logps/chosen": -0.36328125, "logits/rejected": -0.28930664, "logits/chosen": -0.43432617, "nll_loss": 0.36376953, "log_odds_ratio": -0.49902344, "log_odds_chosen": 14.046875, "epoch": 0.10538642, "global_step/max_steps": "45/1281", "percentage": "3.51%", "elapsed_time": "2h 55m 44s", "remaining_time": "3d 8h 27m 3s"}
-{"loss": 0.46038818, "grad_norm": 0.12378819, "learning_rate": 1.783e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004317, "rewards/chosen": -0.03189087, "rewards/rejected": -0.03677368, "rewards/accuracies": 0.25, "rewards/margins": 0.00491333, "logps/rejected": -0.3684082, "logps/chosen": -0.31884766, "logits/rejected": -0.34179688, "logits/chosen": -0.42041016, "nll_loss": 0.31835938, "log_odds_ratio": -0.72192383, "log_odds_chosen": 0.12817383, "epoch": 0.10772834, "global_step/max_steps": "46/1281", "percentage": "3.59%", "elapsed_time": "2h 57m 20s", "remaining_time": "3d 7h 21m 1s"}
-{"loss": 0.4954834, "grad_norm": 0.67944998, "learning_rate": 1.822e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004311, "rewards/chosen": -0.03808594, "rewards/rejected": -0.46389771, "rewards/accuracies": 0.5, "rewards/margins": 0.42666626, "logps/rejected": -4.64770508, "logps/chosen": -0.38110352, "logits/rejected": -0.31884766, "logits/chosen": -0.40136719, "nll_loss": 0.38134766, "log_odds_ratio": -0.62208557, "log_odds_chosen": 4.67871094, "epoch": 0.11007026, "global_step/max_steps": "47/1281", "percentage": "3.67%", "elapsed_time": "3h 1m 27s", "remaining_time": "3d 7h 24m 25s"}
-{"loss": 0.48057556, "grad_norm": 0.11546308, "learning_rate": 1.86e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004323, "rewards/chosen": -0.04058838, "rewards/rejected": -0.31646729, "rewards/accuracies": 0.5, "rewards/margins": 0.27679443, "logps/rejected": -3.16845703, "logps/chosen": -0.40625, "logits/rejected": -0.46679688, "logits/chosen": -0.50732422, "nll_loss": 0.40625, "log_odds_ratio": -0.63623047, "log_odds_chosen": 3.00048828, "epoch": 0.11241218, "global_step/max_steps": "48/1281", "percentage": "3.75%", "elapsed_time": "3h 4m 47s", "remaining_time": "3d 7h 6m 49s"}
-{"loss": 0.60256958, "grad_norm": 0.73745817, "learning_rate": 1.899e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004338, "rewards/chosen": -0.03192139, "rewards/rejected": -0.02645874, "rewards/accuracies": 0.25, "rewards/margins": -0.00546265, "logps/rejected": -0.26489258, "logps/chosen": -0.31884766, "logits/rejected": -0.28442383, "logits/chosen": -0.30834961, "nll_loss": 0.31787109, "log_odds_ratio": -0.79199219, "log_odds_chosen": -0.17993164, "epoch": 0.1147541, "global_step/max_steps": "49/1281", "percentage": "3.83%", "elapsed_time": "3h 8m 0s", "remaining_time": "3d 6h 47m 0s"}
-{"loss": 0.60345459, "grad_norm": 1.77461624, "learning_rate": 1.938e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004356, "rewards/chosen": -0.03149414, "rewards/rejected": -0.02838135, "rewards/accuracies": 0.25, "rewards/margins": -0.00311279, "logps/rejected": -0.28344727, "logps/chosen": -0.31469727, "logits/rejected": -0.31982422, "logits/chosen": -0.47070312, "nll_loss": 0.31445312, "log_odds_ratio": -0.76757812, "log_odds_chosen": -0.14038086, "epoch": 0.11709602, "global_step/max_steps": "50/1281", "percentage": "3.90%", "elapsed_time": "3h 11m 2s", "remaining_time": "3d 6h 23m 16s"}
-{"eval_loss": 0.52925986, "eval_runtime": 641.4732, "eval_samples_per_second": 0.658, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04372421, "eval_rewards/rejected": -0.08673556, "eval_rewards/accuracies": 0.16981132, "eval_rewards/margins": 0.04298257, "eval_logps/rejected": -0.86737174, "eval_logps/chosen": -0.43724203, "eval_logits/rejected": -0.28344497, "eval_logits/chosen": -0.52488852, "eval_nll_loss": 0.43731573, "eval_log_odds_ratio": -0.95137572, "eval_log_odds_chosen": 0.18302256, "epoch": 0.11709602, "global_step/max_steps": "50/1281", "percentage": "3.90%", "elapsed_time": "3h 21m 43s", "remaining_time": "3d 10h 46m 29s"}
-{"loss": 0.52334595, "grad_norm": 0.1435816, "learning_rate": 1.977e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004131, "rewards/chosen": -0.03616333, "rewards/rejected": -0.08886719, "rewards/accuracies": 0.25, "rewards/margins": 0.05279541, "logps/rejected": -0.8894043, "logps/chosen": -0.36132812, "logits/rejected": -0.44628906, "logits/chosen": -0.41162109, "nll_loss": 0.36132812, "log_odds_ratio": -0.69046021, "log_odds_chosen": 0.76855469, "epoch": 0.11943794, "global_step/max_steps": "51/1281", "percentage": "3.98%", "elapsed_time": "3h 25m 29s", "remaining_time": "3d 10h 36m 1s"}
-{"loss": 0.56259155, "grad_norm": 0.14094751, "learning_rate": 2.016e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004126, "rewards/chosen": -0.046875, "rewards/rejected": -0.03430176, "rewards/accuracies": 0.25, "rewards/margins": -0.01257324, "logps/rejected": -0.34326172, "logps/chosen": -0.46923828, "logits/rejected": -0.46655273, "logits/chosen": -0.51611328, "nll_loss": 0.46923828, "log_odds_ratio": -0.92871094, "log_odds_chosen": -0.41503906, "epoch": 0.12177986, "global_step/max_steps": "52/1281", "percentage": "4.06%", "elapsed_time": "3h 29m 47s", "remaining_time": "3d 10h 38m 28s"}
-{"loss": 0.52056885, "grad_norm": 0.15958506, "learning_rate": 2.054e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004139, "rewards/chosen": -0.04098511, "rewards/rejected": -0.02426147, "rewards/accuracies": 0.25, "rewards/margins": -0.01672363, "logps/rejected": -0.24267578, "logps/chosen": -0.40966797, "logits/rejected": -0.22973633, "logits/chosen": -0.54760742, "nll_loss": 0.40917969, "log_odds_ratio": -1.02636719, "log_odds_chosen": -0.52807617, "epoch": 0.12412178, "global_step/max_steps": "53/1281", "percentage": "4.14%", "elapsed_time": "3h 33m 9s", "remaining_time": "3d 10h 18m 56s"}
-{"loss": 0.51293945, "grad_norm": 0.13775666, "learning_rate": 2.093e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004177, "rewards/chosen": -0.05709839, "rewards/rejected": -0.02593994, "rewards/accuracies": 0.25, "rewards/margins": -0.03112793, "logps/rejected": -0.25952148, "logps/chosen": -0.57080078, "logits/rejected": -0.24047852, "logits/chosen": -0.68408203, "nll_loss": 0.57177734, "log_odds_ratio": -1.27734375, "log_odds_chosen": -0.89746094, "epoch": 0.1264637, "global_step/max_steps": "54/1281", "percentage": "4.22%", "elapsed_time": "3h 35m 11s", "remaining_time": "3d 9h 29m 37s"}
-{"loss": 0.50646973, "grad_norm": 0.16116208, "learning_rate": 2.132e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.00421, "rewards/chosen": -0.03811646, "rewards/rejected": -0.0274353, "rewards/accuracies": 0.25, "rewards/margins": -0.01068115, "logps/rejected": -0.27490234, "logps/chosen": -0.38134766, "logits/rejected": -0.34521484, "logits/chosen": -0.52001953, "nll_loss": 0.38085938, "log_odds_ratio": -0.95605469, "log_odds_chosen": -0.44189453, "epoch": 0.12880562, "global_step/max_steps": "55/1281", "percentage": "4.29%", "elapsed_time": "3h 37m 29s", "remaining_time": "3d 8h 48m 9s"}
-{"loss": 0.52423096, "grad_norm": 0.27805322, "learning_rate": 2.171e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.00425, "rewards/chosen": -0.06137085, "rewards/rejected": -0.02838135, "rewards/accuracies": 0.0, "rewards/margins": -0.0329895, "logps/rejected": -0.28393555, "logps/chosen": -0.61425781, "logits/rejected": -0.24029541, "logits/chosen": -0.66894531, "nll_loss": 0.61425781, "log_odds_ratio": -1.24023438, "log_odds_chosen": -0.86279297, "epoch": 0.13114754, "global_step/max_steps": "56/1281", "percentage": "4.37%", "elapsed_time": "3h 39m 20s", "remaining_time": "3d 7h 58m 11s"}
-{"loss": 0.58349609, "grad_norm": 0.37276149, "learning_rate": 2.209e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004256, "rewards/chosen": -0.03268433, "rewards/rejected": -0.03115845, "rewards/accuracies": 0.5, "rewards/margins": -0.00152588, "logps/rejected": -0.31176758, "logps/chosen": -0.32666016, "logits/rejected": -0.22851562, "logits/chosen": -0.66503906, "nll_loss": 0.32641602, "log_odds_ratio": -0.72753906, "log_odds_chosen": -0.05810547, "epoch": 0.13348946, "global_step/max_steps": "57/1281", "percentage": "4.45%", "elapsed_time": "3h 42m 56s", "remaining_time": "3d 7h 47m 31s"}
-{"loss": 0.5043335, "grad_norm": 0.12889104, "learning_rate": 2.248e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004256, "rewards/chosen": -0.03897095, "rewards/rejected": -0.33685303, "rewards/accuracies": 0.25, "rewards/margins": 0.29818726, "logps/rejected": -3.36035156, "logps/chosen": -0.38964844, "logits/rejected": -0.18151855, "logits/chosen": -0.54736328, "nll_loss": 0.39013672, "log_odds_ratio": -0.78027344, "log_odds_chosen": 3.05664062, "epoch": 0.13583138, "global_step/max_steps": "58/1281", "percentage": "4.53%", "elapsed_time": "3h 46m 51s", "remaining_time": "3d 7h 43m 40s"}
-{"loss": 0.47988892, "grad_norm": 0.13205451, "learning_rate": 2.287e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004261, "rewards/chosen": -0.03903198, "rewards/rejected": -0.04699707, "rewards/accuracies": 0.5, "rewards/margins": 0.00796509, "logps/rejected": -0.47021484, "logps/chosen": -0.39013672, "logits/rejected": -0.52685547, "logits/chosen": -0.64306641, "nll_loss": 0.38916016, "log_odds_ratio": -0.70678711, "log_odds_chosen": 0.13916016, "epoch": 0.1381733, "global_step/max_steps": "59/1281", "percentage": "4.61%", "elapsed_time": "3h 50m 31s", "remaining_time": "3d 7h 34m 45s"}
-{"loss": 0.54541016, "grad_norm": 0.1370042, "learning_rate": 2.326e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004286, "rewards/chosen": -0.05780029, "rewards/rejected": -0.03494263, "rewards/accuracies": 0.25, "rewards/margins": -0.02288818, "logps/rejected": -0.34912109, "logps/chosen": -0.578125, "logits/rejected": -0.58300781, "logits/chosen": -0.58691406, "nll_loss": 0.57763672, "log_odds_ratio": -1.07226562, "log_odds_chosen": -0.60742188, "epoch": 0.14051522, "global_step/max_steps": "60/1281", "percentage": "4.68%", "elapsed_time": "3h 53m 2s", "remaining_time": "3d 7h 2m 17s"}
-{"eval_loss": 0.51840079, "eval_runtime": 642.1861, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04324974, "eval_rewards/rejected": -0.06017721, "eval_rewards/accuracies": 0.26415095, "eval_rewards/margins": 0.01688255, "eval_logps/rejected": -0.60198629, "eval_logps/chosen": -0.43261719, "eval_logits/rejected": -0.27153504, "eval_logits/chosen": -0.53526682, "eval_nll_loss": 0.43278301, "eval_log_odds_ratio": -0.87953389, "eval_log_odds_chosen": 0.00254275, "epoch": 0.14051522, "global_step/max_steps": "60/1281", "percentage": "4.68%", "elapsed_time": "4h 3m 44s", "remaining_time": "3d 10h 40m 6s"}
-{"loss": 0.52972412, "grad_norm": 0.14679687, "learning_rate": 2.364e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004106, "rewards/chosen": -0.04101562, "rewards/rejected": -0.03057861, "rewards/accuracies": 0.25, "rewards/margins": -0.01043701, "logps/rejected": -0.30566406, "logps/chosen": -0.41064453, "logits/rejected": -0.15844727, "logits/chosen": -0.48388672, "nll_loss": 0.40869141, "log_odds_ratio": -0.86425781, "log_odds_chosen": -0.26953125, "epoch": 0.14285714, "global_step/max_steps": "61/1281", "percentage": "4.76%", "elapsed_time": "4h 7m 20s", "remaining_time": "3d 10h 26m 53s"}

+{"loss": 0.71182251, "grad_norm": 0.50473613, "learning_rate": 1e-05, "memory(GiB)": 65.28, "train_speed(iter/s)": 0.004491, "rewards/chosen": -0.06079102, "rewards/rejected": -0.02548218, "rewards/accuracies": 0.0, "rewards/margins": -0.03527832, "logps/rejected": -0.25488281, "logps/chosen": -0.60693359, "logits/rejected": -0.55566406, "logits/chosen": -0.9296875, "nll_loss": 0.60791016, "log_odds_ratio": -1.3359375, "log_odds_chosen": -0.95898438, "epoch": 0.00234192, "global_step/max_steps": "1/427", "percentage": "0.23%", "elapsed_time": "3m 7s", "remaining_time": "22h 8m 55s"}
+{"loss": 0.71121216, "grad_norm": 0.2472575, "learning_rate": 2e-05, "memory(GiB)": 65.28, "train_speed(iter/s)": 0.005652, "rewards/chosen": -0.04333496, "rewards/rejected": -0.20187378, "rewards/accuracies": 0.25, "rewards/margins": 0.15856934, "logps/rejected": -2.02270508, "logps/chosen": -0.43383789, "logits/rejected": -0.68066406, "logits/chosen": -0.79003906, "nll_loss": 0.43530273, "log_odds_ratio": -0.99414062, "log_odds_chosen": 1.50390625, "epoch": 0.00468384, "global_step/max_steps": "2/427", "percentage": "0.47%", "elapsed_time": "5m 18s", "remaining_time": "18h 47m 31s"}
+{"loss": 0.70794678, "grad_norm": 0.41171619, "learning_rate": 3e-05, "memory(GiB)": 85.96, "train_speed(iter/s)": 0.00496, "rewards/chosen": -0.0637207, "rewards/rejected": -0.03091431, "rewards/accuracies": 0.25, "rewards/margins": -0.03277588, "logps/rejected": -0.30859375, "logps/chosen": -0.63574219, "logits/rejected": -0.59179688, "logits/chosen": -0.83007812, "nll_loss": 0.63574219, "log_odds_ratio": -1.265625, "log_odds_chosen": -0.87841797, "epoch": 0.00702576, "global_step/max_steps": "3/427", "percentage": "0.70%", "elapsed_time": "9m 29s", "remaining_time": "22h 20m 56s"}
+{"loss": 0.55819702, "grad_norm": 0.21382663, "learning_rate": 4e-05, "memory(GiB)": 85.96, "train_speed(iter/s)": 0.005186, "rewards/chosen": -0.04994202, "rewards/rejected": -0.3208313, "rewards/accuracies": 0.25, "rewards/margins": 0.2706604, "logps/rejected": -3.20458984, "logps/chosen": -0.4987793, "logits/rejected": -0.56103516, "logits/chosen": -0.70703125, "nll_loss": 0.49853516, "log_odds_ratio": -0.92773438, "log_odds_chosen": 2.79736328, "epoch": 0.00936768, "global_step/max_steps": "4/427", "percentage": "0.94%", "elapsed_time": "12m 15s", "remaining_time": "21h 36m 53s"}
+{"loss": 0.59536743, "grad_norm": 0.26937932, "learning_rate": 5e-05, "memory(GiB)": 100.08, "train_speed(iter/s)": 0.005046, "rewards/chosen": -0.0397644, "rewards/rejected": -0.03491211, "rewards/accuracies": 0.0, "rewards/margins": -0.00485229, "logps/rejected": -0.34912109, "logps/chosen": -0.39794922, "logits/rejected": -0.35253906, "logits/chosen": -0.61303711, "nll_loss": 0.39746094, "log_odds_ratio": -0.78515625, "log_odds_chosen": -0.16894531, "epoch": 0.0117096, "global_step/max_steps": "5/427", "percentage": "1.17%", "elapsed_time": "15m 55s", "remaining_time": "22h 23m 44s"}
+{"loss": 0.53262329, "grad_norm": 0.17409046, "learning_rate": 4.988e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.005262, "rewards/chosen": -0.04147339, "rewards/rejected": -0.02944946, "rewards/accuracies": 0.0, "rewards/margins": -0.01202393, "logps/rejected": -0.29418945, "logps/chosen": -0.4140625, "logits/rejected": -0.4733429, "logits/chosen": -0.69287109, "nll_loss": 0.4140625, "log_odds_ratio": -0.94824219, "log_odds_chosen": -0.45214844, "epoch": 0.01405152, "global_step/max_steps": "6/427", "percentage": "1.41%", "elapsed_time": "18m 24s", "remaining_time": "21h 31m 47s"}
+{"loss": 0.60583496, "grad_norm": 0.17889634, "learning_rate": 4.976e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.005214, "rewards/chosen": -0.03909302, "rewards/rejected": -0.02963257, "rewards/accuracies": 0.0, "rewards/margins": -0.00946045, "logps/rejected": -0.29638672, "logps/chosen": -0.390625, "logits/rejected": -0.24816895, "logits/chosen": -0.46972656, "nll_loss": 0.390625, "log_odds_ratio": -0.90234375, "log_odds_chosen": -0.36767578, "epoch": 0.01639344, "global_step/max_steps": "7/427", "percentage": "1.64%", "elapsed_time": "21m 47s", "remaining_time": "21h 47m 8s"}
+{"loss": 0.52966309, "grad_norm": 0.55184156, "learning_rate": 4.964e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.004927, "rewards/chosen": -0.04440308, "rewards/rejected": -0.03186035, "rewards/accuracies": 0.25, "rewards/margins": -0.01254272, "logps/rejected": -0.31860352, "logps/chosen": -0.44433594, "logits/rejected": -0.27441406, "logits/chosen": -0.43896484, "nll_loss": 0.4453125, "log_odds_ratio": -0.94628906, "log_odds_chosen": -0.41943359, "epoch": 0.01873536, "global_step/max_steps": "8/427", "percentage": "1.87%", "elapsed_time": "26m 28s", "remaining_time": "23h 6m 18s"}
+{"loss": 0.51733398, "grad_norm": 0.2928918, "learning_rate": 4.953e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004731, "rewards/chosen": -0.04522705, "rewards/rejected": -0.03936768, "rewards/accuracies": 0.25, "rewards/margins": -0.00585938, "logps/rejected": -0.39379883, "logps/chosen": -0.45263672, "logits/rejected": -0.60021973, "logits/chosen": -0.57861328, "nll_loss": 0.45361328, "log_odds_ratio": -0.81152344, "log_odds_chosen": -0.17089844, "epoch": 0.02107728, "global_step/max_steps": "9/427", "percentage": "2.11%", "elapsed_time": "31m 6s", "remaining_time": "1d 0h 5m 2s"}
+{"loss": 0.47979736, "grad_norm": 0.31410763, "learning_rate": 4.941e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004722, "rewards/chosen": -0.03292847, "rewards/rejected": -0.26223755, "rewards/accuracies": 0.25, "rewards/margins": 0.22958374, "logps/rejected": -2.62597656, "logps/chosen": -0.32983398, "logits/rejected": -0.15657043, "logits/chosen": -0.61669922, "nll_loss": 0.33007812, "log_odds_ratio": -0.65234375, "log_odds_chosen": 2.58398438, "epoch": 0.0234192, "global_step/max_steps": "10/427", "percentage": "2.34%", "elapsed_time": "34m 42s", "remaining_time": "1d 0h 7m 4s"}
+{"eval_loss": 0.5831027, "eval_runtime": 650.6955, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.081, "eval_rewards/chosen": -0.04833754, "eval_rewards/rejected": -0.0663694, "eval_rewards/accuracies": 0.1509434, "eval_rewards/margins": 0.01799501, "eval_logps/rejected": -0.66374928, "eval_logps/chosen": -0.48339844, "eval_logits/rejected": -0.14427559, "eval_logits/chosen": -0.63772297, "eval_nll_loss": 0.48369324, "eval_log_odds_ratio": -1.01467609, "eval_log_odds_chosen": -0.14031176, "epoch": 0.0234192, "global_step/max_steps": "10/427", "percentage": "2.34%", "elapsed_time": "45m 32s", "remaining_time": "1d 7h 39m 18s"}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c273b6fc2e3a01c9b10cd9e2cb0dd0ab39d49d8858215dbd56bb89671ba0672
 size 8312

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f7f859de5857f7c8a0dd3656e447fff3c7bce8de51646432f00933de21cb3de
 size 8312