diff --git "a/logging.jsonl" "b/logging.jsonl"
--- "a/logging.jsonl"
+++ "b/logging.jsonl"
@@ -1,187 +1,11 @@
-{"loss": 0.71182251, "grad_norm": 0.50473613, "learning_rate": 1e-05, "memory(GiB)": 65.28, "train_speed(iter/s)": 0.004491, "rewards/chosen": -0.06079102, "rewards/rejected": -0.02548218, "rewards/accuracies": 0.0, "rewards/margins": -0.03527832, "logps/rejected": -0.25488281, "logps/chosen": -0.60693359, "logits/rejected": -0.55566406, "logits/chosen": -0.9296875, "nll_loss": 0.60791016, "log_odds_ratio": -1.3359375, "log_odds_chosen": -0.95898438, "epoch": 0.00234192, "global_step/max_steps": "1/427", "percentage": "0.23%", "elapsed_time": "3m 7s", "remaining_time": "22h 8m 55s"}
-{"loss": 0.71121216, "grad_norm": 0.2472575, "learning_rate": 2e-05, "memory(GiB)": 65.28, "train_speed(iter/s)": 0.005652, "rewards/chosen": -0.04333496, "rewards/rejected": -0.20187378, "rewards/accuracies": 0.25, "rewards/margins": 0.15856934, "logps/rejected": -2.02270508, "logps/chosen": -0.43383789, "logits/rejected": -0.68066406, "logits/chosen": -0.79003906, "nll_loss": 0.43530273, "log_odds_ratio": -0.99414062, "log_odds_chosen": 1.50390625, "epoch": 0.00468384, "global_step/max_steps": "2/427", "percentage": "0.47%", "elapsed_time": "5m 18s", "remaining_time": "18h 47m 31s"}
-{"loss": 0.70794678, "grad_norm": 0.41171619, "learning_rate": 3e-05, "memory(GiB)": 85.96, "train_speed(iter/s)": 0.00496, "rewards/chosen": -0.0637207, "rewards/rejected": -0.03091431, "rewards/accuracies": 0.25, "rewards/margins": -0.03277588, "logps/rejected": -0.30859375, "logps/chosen": -0.63574219, "logits/rejected": -0.59179688, "logits/chosen": -0.83007812, "nll_loss": 0.63574219, "log_odds_ratio": -1.265625, "log_odds_chosen": -0.87841797, "epoch": 0.00702576, "global_step/max_steps": "3/427", "percentage": "0.70%", "elapsed_time": "9m 29s", "remaining_time": "22h 20m 56s"}
-{"loss": 0.55819702, "grad_norm": 0.21382663, "learning_rate": 4e-05, "memory(GiB)": 85.96, "train_speed(iter/s)": 0.005186, "rewards/chosen": -0.04994202, "rewards/rejected": -0.3208313, "rewards/accuracies": 0.25, "rewards/margins": 0.2706604, "logps/rejected": -3.20458984, "logps/chosen": -0.4987793, "logits/rejected": -0.56103516, "logits/chosen": -0.70703125, "nll_loss": 0.49853516, "log_odds_ratio": -0.92773438, "log_odds_chosen": 2.79736328, "epoch": 0.00936768, "global_step/max_steps": "4/427", "percentage": "0.94%", "elapsed_time": "12m 15s", "remaining_time": "21h 36m 53s"}
-{"loss": 0.59536743, "grad_norm": 0.26937932, "learning_rate": 5e-05, "memory(GiB)": 100.08, "train_speed(iter/s)": 0.005046, "rewards/chosen": -0.0397644, "rewards/rejected": -0.03491211, "rewards/accuracies": 0.0, "rewards/margins": -0.00485229, "logps/rejected": -0.34912109, "logps/chosen": -0.39794922, "logits/rejected": -0.35253906, "logits/chosen": -0.61303711, "nll_loss": 0.39746094, "log_odds_ratio": -0.78515625, "log_odds_chosen": -0.16894531, "epoch": 0.0117096, "global_step/max_steps": "5/427", "percentage": "1.17%", "elapsed_time": "15m 55s", "remaining_time": "22h 23m 44s"}
-{"loss": 0.53262329, "grad_norm": 0.17409046, "learning_rate": 4.988e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.005262, "rewards/chosen": -0.04147339, "rewards/rejected": -0.02944946, "rewards/accuracies": 0.0, "rewards/margins": -0.01202393, "logps/rejected": -0.29418945, "logps/chosen": -0.4140625, "logits/rejected": -0.4733429, "logits/chosen": -0.69287109, "nll_loss": 0.4140625, "log_odds_ratio": -0.94824219, "log_odds_chosen": -0.45214844, "epoch": 0.01405152, "global_step/max_steps": "6/427", "percentage": "1.41%", "elapsed_time": "18m 24s", "remaining_time": "21h 31m 47s"}
-{"loss": 0.60583496, "grad_norm": 0.17889634, "learning_rate": 4.976e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.005214, "rewards/chosen": -0.03909302, "rewards/rejected": -0.02963257, "rewards/accuracies": 0.0, "rewards/margins": -0.00946045, "logps/rejected": -0.29638672, "logps/chosen": -0.390625, "logits/rejected": -0.24816895, "logits/chosen": -0.46972656, "nll_loss": 0.390625, "log_odds_ratio": -0.90234375, "log_odds_chosen": -0.36767578, "epoch": 0.01639344, "global_step/max_steps": "7/427", "percentage": "1.64%", "elapsed_time": "21m 47s", "remaining_time": "21h 47m 8s"}
-{"loss": 0.52966309, "grad_norm": 0.55184156, "learning_rate": 4.964e-05, "memory(GiB)": 117.06, "train_speed(iter/s)": 0.004927, "rewards/chosen": -0.04440308, "rewards/rejected": -0.03186035, "rewards/accuracies": 0.25, "rewards/margins": -0.01254272, "logps/rejected": -0.31860352, "logps/chosen": -0.44433594, "logits/rejected": -0.27441406, "logits/chosen": -0.43896484, "nll_loss": 0.4453125, "log_odds_ratio": -0.94628906, "log_odds_chosen": -0.41943359, "epoch": 0.01873536, "global_step/max_steps": "8/427", "percentage": "1.87%", "elapsed_time": "26m 28s", "remaining_time": "23h 6m 18s"}
-{"loss": 0.51733398, "grad_norm": 0.2928918, "learning_rate": 4.953e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004731, "rewards/chosen": -0.04522705, "rewards/rejected": -0.03936768, "rewards/accuracies": 0.25, "rewards/margins": -0.00585938, "logps/rejected": -0.39379883, "logps/chosen": -0.45263672, "logits/rejected": -0.60021973, "logits/chosen": -0.57861328, "nll_loss": 0.45361328, "log_odds_ratio": -0.81152344, "log_odds_chosen": -0.17089844, "epoch": 0.02107728, "global_step/max_steps": "9/427", "percentage": "2.11%", "elapsed_time": "31m 6s", "remaining_time": "1d 0h 5m 2s"}
-{"loss": 0.47979736, "grad_norm": 0.31410763, "learning_rate": 4.941e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004722, "rewards/chosen": -0.03292847, "rewards/rejected": -0.26223755, "rewards/accuracies": 0.25, "rewards/margins": 0.22958374, "logps/rejected": -2.62597656, "logps/chosen": -0.32983398, "logits/rejected": -0.15657043, "logits/chosen": -0.61669922, "nll_loss": 0.33007812, "log_odds_ratio": -0.65234375, "log_odds_chosen": 2.58398438, "epoch": 0.0234192, "global_step/max_steps": "10/427", "percentage": "2.34%", "elapsed_time": "34m 42s", "remaining_time": "1d 0h 7m 4s"}
-{"eval_loss": 0.5831027, "eval_runtime": 650.6955, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.081, "eval_rewards/chosen": -0.04833754, "eval_rewards/rejected": -0.0663694, "eval_rewards/accuracies": 0.1509434, "eval_rewards/margins": 0.01799501, "eval_logps/rejected": -0.66374928, "eval_logps/chosen": -0.48339844, "eval_logits/rejected": -0.14427559, "eval_logits/chosen": -0.63772297, "eval_nll_loss": 0.48369324, "eval_log_odds_ratio": -1.01467609, "eval_log_odds_chosen": -0.14031176, "epoch": 0.0234192, "global_step/max_steps": "10/427", "percentage": "2.34%", "elapsed_time": "45m 32s", "remaining_time": "1d 7h 39m 18s"}
-{"loss": 0.5508728, "grad_norm": 0.16185035, "learning_rate": 4.929e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003721, "rewards/chosen": -0.04492188, "rewards/rejected": -0.03366089, "rewards/accuracies": 0.0, "rewards/margins": -0.01126099, "logps/rejected": -0.33691406, "logps/chosen": -0.44921875, "logits/rejected": -0.36431503, "logits/chosen": -0.52368164, "nll_loss": 0.45117188, "log_odds_ratio": -0.88378906, "log_odds_chosen": -0.33886719, "epoch": 0.02576112, "global_step/max_steps": "11/427", "percentage": "2.58%", "elapsed_time": "48m 40s", "remaining_time": "1d 6h 40m 41s"}
-{"loss": 0.5760498, "grad_norm": 0.18163176, "learning_rate": 4.917e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003716, "rewards/chosen": -0.0496521, "rewards/rejected": -0.02243042, "rewards/accuracies": 0.0, "rewards/margins": -0.02719116, "logps/rejected": -0.22436523, "logps/chosen": -0.49609375, "logits/rejected": -0.10754395, "logits/chosen": -0.88354492, "nll_loss": 0.49511719, "log_odds_ratio": -1.26757812, "log_odds_chosen": -0.88818359, "epoch": 0.02810304, "global_step/max_steps": "12/427", "percentage": "2.81%", "elapsed_time": "53m 14s", "remaining_time": "1d 6h 41m 3s"}
-{"loss": 0.62030029, "grad_norm": 0.12968849, "learning_rate": 4.905e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003858, "rewards/chosen": -0.04309082, "rewards/rejected": -0.10696411, "rewards/accuracies": 0.25, "rewards/margins": 0.06369019, "logps/rejected": -1.0703125, "logps/chosen": -0.43017578, "logits/rejected": -0.28796387, "logits/chosen": -0.7175293, "nll_loss": 0.43066406, "log_odds_ratio": -0.71975708, "log_odds_chosen": 0.72509766, "epoch": 0.03044496, "global_step/max_steps": "13/427", "percentage": "3.04%", "elapsed_time": "55m 34s", "remaining_time": "1d 5h 29m 45s"}
-{"loss": 0.51806641, "grad_norm": 0.14996091, "learning_rate": 4.893e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003885, "rewards/chosen": -0.03918457, "rewards/rejected": -0.131073, "rewards/accuracies": 0.25, "rewards/margins": 0.09182739, "logps/rejected": -1.31079102, "logps/chosen": -0.39208984, "logits/rejected": -0.14990997, "logits/chosen": -0.640625, "nll_loss": 0.39111328, "log_odds_ratio": -0.68554688, "log_odds_chosen": 0.99169922, "epoch": 0.03278689, "global_step/max_steps": "14/427", "percentage": "3.28%", "elapsed_time": "59m 28s", "remaining_time": "1d 5h 14m 19s"}
-{"loss": 0.54800415, "grad_norm": 0.13576238, "learning_rate": 4.882e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003967, "rewards/chosen": -0.05621338, "rewards/rejected": -0.0418396, "rewards/accuracies": 0.0, "rewards/margins": -0.01437378, "logps/rejected": -0.41845703, "logps/chosen": -0.56201172, "logits/rejected": -0.62255859, "logits/chosen": -0.87548828, "nll_loss": 0.56396484, "log_odds_ratio": -0.91015625, "log_odds_chosen": -0.39257812, "epoch": 0.03512881, "global_step/max_steps": "15/427", "percentage": "3.51%", "elapsed_time": "1h 2m 25s", "remaining_time": "1d 4h 34m 37s"}
-{"loss": 0.52703857, "grad_norm": 0.15086958, "learning_rate": 4.87e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00409, "rewards/chosen": -0.0355835, "rewards/rejected": -0.31408691, "rewards/accuracies": 0.5, "rewards/margins": 0.27868652, "logps/rejected": -3.14868164, "logps/chosen": -0.35644531, "logits/rejected": -0.28491211, "logits/chosen": -0.40063477, "nll_loss": 0.35717773, "log_odds_ratio": -0.68847656, "log_odds_chosen": 3.08691406, "epoch": 0.03747073, "global_step/max_steps": "16/427", "percentage": "3.75%", "elapsed_time": "1h 4m 36s", "remaining_time": "1d 3h 39m 43s"}
-{"loss": 0.51220703, "grad_norm": 0.20317407, "learning_rate": 4.858e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00423, "rewards/chosen": -0.03747559, "rewards/rejected": -0.02981567, "rewards/accuracies": 0.25, "rewards/margins": -0.00765991, "logps/rejected": -0.29833984, "logps/chosen": -0.375, "logits/rejected": -0.21630859, "logits/chosen": -0.62280273, "nll_loss": 0.37451172, "log_odds_ratio": -0.83691406, "log_odds_chosen": -0.25732422, "epoch": 0.03981265, "global_step/max_steps": "17/427", "percentage": "3.98%", "elapsed_time": "1h 6m 23s", "remaining_time": "1d 2h 41m 19s"}
-{"loss": 0.54711914, "grad_norm": 0.1834795, "learning_rate": 4.846e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004311, "rewards/chosen": -0.04171753, "rewards/rejected": -0.02896118, "rewards/accuracies": 0.0, "rewards/margins": -0.01275635, "logps/rejected": -0.29003906, "logps/chosen": -0.41748047, "logits/rejected": -0.34716797, "logits/chosen": -0.390625, "nll_loss": 0.41796875, "log_odds_ratio": -0.9453125, "log_odds_chosen": -0.43945312, "epoch": 0.04215457, "global_step/max_steps": "18/427", "percentage": "4.22%", "elapsed_time": "1h 9m 0s", "remaining_time": "1d 2h 7m 54s"}
-{"loss": 0.6060791, "grad_norm": 0.17711087, "learning_rate": 4.834e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004375, "rewards/chosen": -0.05450439, "rewards/rejected": -0.0418396, "rewards/accuracies": 0.25, "rewards/margins": -0.01266479, "logps/rejected": -0.41870117, "logps/chosen": -0.54492188, "logits/rejected": -0.07092285, "logits/chosen": -0.89990234, "nll_loss": 0.54492188, "log_odds_ratio": -1.06689453, "log_odds_chosen": -0.421875, "epoch": 0.04449649, "global_step/max_steps": "19/427", "percentage": "4.45%", "elapsed_time": "1h 11m 46s", "remaining_time": "1d 1h 41m 24s"}
-{"loss": 0.5302124, "grad_norm": 0.17734838, "learning_rate": 4.822e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004438, "rewards/chosen": -0.04205322, "rewards/rejected": -0.337677, "rewards/accuracies": 0.25, "rewards/margins": 0.29507446, "logps/rejected": -3.38452148, "logps/chosen": -0.42138672, "logits/rejected": -0.19189453, "logits/chosen": -0.63818359, "nll_loss": 0.421875, "log_odds_ratio": -0.765625, "log_odds_chosen": 3.02441406, "epoch": 0.04683841, "global_step/max_steps": "20/427", "percentage": "4.68%", "elapsed_time": "1h 14m 31s", "remaining_time": "1d 1h 16m 29s"}
-{"eval_loss": 0.54629415, "eval_runtime": 649.436, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04680821, "eval_rewards/rejected": -0.1127446, "eval_rewards/accuracies": 0.20754717, "eval_rewards/margins": 0.06599627, "eval_logps/rejected": -1.12826133, "eval_logps/chosen": -0.46812353, "eval_logits/rejected": -0.19595452, "eval_logits/chosen": -0.69040203, "eval_nll_loss": 0.467884, "eval_log_odds_ratio": -0.89034861, "eval_log_odds_chosen": 0.46792084, "epoch": 0.04683841, "global_step/max_steps": "20/427", "percentage": "4.68%", "elapsed_time": "1h 25m 20s", "remaining_time": "1d 4h 56m 45s"}
-{"loss": 0.51519775, "grad_norm": 0.10090376, "learning_rate": 4.81e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003927, "rewards/chosen": -0.05041504, "rewards/rejected": -0.03256226, "rewards/accuracies": 0.25, "rewards/margins": -0.01782227, "logps/rejected": -0.32568359, "logps/chosen": -0.50439453, "logits/rejected": -0.19970703, "logits/chosen": -0.56787109, "nll_loss": 0.50341797, "log_odds_ratio": -1.03320312, "log_odds_chosen": -0.54589844, "epoch": 0.04918033, "global_step/max_steps": "21/427", "percentage": "4.92%", "elapsed_time": "1h 28m 32s", "remaining_time": "1d 4h 31m 41s"}
-{"loss": 0.50192261, "grad_norm": 0.1406364, "learning_rate": 4.799e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003973, "rewards/chosen": -0.04260254, "rewards/rejected": -0.03256226, "rewards/accuracies": 0.25, "rewards/margins": -0.01004028, "logps/rejected": -0.32568359, "logps/chosen": -0.42578125, "logits/rejected": -0.17492676, "logits/chosen": -0.84277344, "nll_loss": 0.42480469, "log_odds_ratio": -0.87695312, "log_odds_chosen": -0.30859375, "epoch": 0.05152225, "global_step/max_steps": "22/427", "percentage": "5.15%", "elapsed_time": "1h 31m 41s", "remaining_time": "1d 4h 7m 55s"}
-{"loss": 0.50723267, "grad_norm": 0.13409552, "learning_rate": 4.787e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004036, "rewards/chosen": -0.04385376, "rewards/rejected": -0.02697754, "rewards/accuracies": 0.0, "rewards/margins": -0.01687622, "logps/rejected": -0.26953125, "logps/chosen": -0.43847656, "logits/rejected": -0.16381836, "logits/chosen": -0.53173828, "nll_loss": 0.43896484, "log_odds_ratio": -1.00683594, "log_odds_chosen": -0.54589844, "epoch": 0.05386417, "global_step/max_steps": "23/427", "percentage": "5.39%", "elapsed_time": "1h 34m 23s", "remaining_time": "1d 3h 38m 6s"}
-{"loss": 0.5960083, "grad_norm": 0.12811776, "learning_rate": 4.775e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004112, "rewards/chosen": -0.04199219, "rewards/rejected": -0.45697021, "rewards/accuracies": 0.5, "rewards/margins": 0.41571045, "logps/rejected": -4.56567383, "logps/chosen": -0.42041016, "logits/rejected": -0.3449707, "logits/chosen": -0.6262207, "nll_loss": 0.41992188, "log_odds_ratio": -0.7578125, "log_odds_chosen": 4.25488281, "epoch": 0.05620609, "global_step/max_steps": "24/427", "percentage": "5.62%", "elapsed_time": "1h 36m 41s", "remaining_time": "1d 3h 3m 39s"}
-{"loss": 0.48651123, "grad_norm": 0.52869457, "learning_rate": 4.763e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004143, "rewards/chosen": -0.03469849, "rewards/rejected": -0.33258057, "rewards/accuracies": 0.75, "rewards/margins": 0.29742432, "logps/rejected": -3.33300781, "logps/chosen": -0.34692383, "logits/rejected": -0.20849609, "logits/chosen": -0.75732422, "nll_loss": 0.34716797, "log_odds_ratio": -0.48535156, "log_odds_chosen": 3.45410156, "epoch": 0.05854801, "global_step/max_steps": "25/427", "percentage": "5.85%", "elapsed_time": "1h 39m 58s", "remaining_time": "1d 2h 47m 43s"}
-{"loss": 0.48239136, "grad_norm": 0.12502326, "learning_rate": 4.751e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004225, "rewards/chosen": -0.04544067, "rewards/rejected": -0.03619385, "rewards/accuracies": 0.25, "rewards/margins": -0.00924683, "logps/rejected": -0.36230469, "logps/chosen": -0.4543457, "logits/rejected": -0.35624695, "logits/chosen": -0.82617188, "nll_loss": 0.45483398, "log_odds_ratio": -0.82324219, "log_odds_chosen": -0.23071289, "epoch": 0.06088993, "global_step/max_steps": "26/427", "percentage": "6.09%", "elapsed_time": "1h 41m 58s", "remaining_time": "1d 2h 12m 45s"}
-{"loss": 0.45581055, "grad_norm": 0.13952617, "learning_rate": 4.739e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004279, "rewards/chosen": -0.0458374, "rewards/rejected": -0.03378296, "rewards/accuracies": 0.25, "rewards/margins": -0.01205444, "logps/rejected": -0.33789062, "logps/chosen": -0.45800781, "logits/rejected": -0.26342773, "logits/chosen": -0.6875, "nll_loss": 0.45800781, "log_odds_ratio": -0.92578125, "log_odds_chosen": -0.38476562, "epoch": 0.06323185, "global_step/max_steps": "27/427", "percentage": "6.32%", "elapsed_time": "1h 44m 34s", "remaining_time": "1d 1h 49m 17s"}
-{"loss": 0.52313232, "grad_norm": 0.12254119, "learning_rate": 4.727e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004302, "rewards/chosen": -0.04187012, "rewards/rejected": -0.03118896, "rewards/accuracies": 0.0, "rewards/margins": -0.01068115, "logps/rejected": -0.31201172, "logps/chosen": -0.41894531, "logits/rejected": -0.15625, "logits/chosen": -0.51318359, "nll_loss": 0.41943359, "log_odds_ratio": -0.88378906, "log_odds_chosen": -0.32861328, "epoch": 0.06557377, "global_step/max_steps": "28/427", "percentage": "6.56%", "elapsed_time": "1h 47m 53s", "remaining_time": "1d 1h 37m 24s"}
-{"loss": 0.48260498, "grad_norm": 0.10697053, "learning_rate": 4.716e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004332, "rewards/chosen": -0.02954102, "rewards/rejected": -0.16809082, "rewards/accuracies": 0.75, "rewards/margins": 0.13824463, "logps/rejected": -1.6809082, "logps/chosen": -0.29516602, "logits/rejected": -0.14746094, "logits/chosen": -0.56542969, "nll_loss": 0.29541016, "log_odds_ratio": -0.42626953, "log_odds_chosen": 1.89550781, "epoch": 0.06791569, "global_step/max_steps": "29/427", "percentage": "6.79%", "elapsed_time": "1h 50m 58s", "remaining_time": "1d 1h 22m 59s"}
-{"loss": 0.53933716, "grad_norm": 0.12141043, "learning_rate": 4.704e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004394, "rewards/chosen": -0.03790283, "rewards/rejected": -0.40350342, "rewards/accuracies": 1.0, "rewards/margins": 0.36474609, "logps/rejected": -4.0390625, "logps/chosen": -0.37890625, "logits/rejected": -0.09671021, "logits/chosen": -0.57263184, "nll_loss": 0.37939453, "log_odds_ratio": -0.31835938, "log_odds_chosen": 4.24267578, "epoch": 0.07025761, "global_step/max_steps": "30/427", "percentage": "7.03%", "elapsed_time": "1h 53m 11s", "remaining_time": "1d 0h 57m 52s"}
-{"eval_loss": 0.53486466, "eval_runtime": 649.4837, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04602281, "eval_rewards/rejected": -0.20753105, "eval_rewards/accuracies": 0.6981132, "eval_rewards/margins": 0.16159116, "eval_logps/rejected": -2.07661414, "eval_logps/chosen": -0.46020046, "eval_logits/rejected": -0.16424474, "eval_logits/chosen": -0.72355449, "eval_nll_loss": 0.46029261, "eval_log_odds_ratio": -0.44873047, "eval_log_odds_chosen": 2.03180265, "epoch": 0.07025761, "global_step/max_steps": "30/427", "percentage": "7.03%", "elapsed_time": "2h 4m 0s", "remaining_time": "1d 3h 21m 7s"}
-{"loss": 0.48223877, "grad_norm": 0.34435612, "learning_rate": 4.692e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004041, "rewards/chosen": -0.04147339, "rewards/rejected": -0.08712769, "rewards/accuracies": 0.75, "rewards/margins": 0.0456543, "logps/rejected": -0.87060547, "logps/chosen": -0.41552734, "logits/rejected": -0.08825684, "logits/chosen": -0.63407898, "nll_loss": 0.41601562, "log_odds_ratio": -0.44042969, "log_odds_chosen": 0.77685547, "epoch": 0.07259953, "global_step/max_steps": "31/427", "percentage": "7.26%", "elapsed_time": "2h 7m 16s", "remaining_time": "1d 3h 5m 51s"}
-{"loss": 0.51870728, "grad_norm": 0.16542459, "learning_rate": 4.68e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004091, "rewards/chosen": -0.04034424, "rewards/rejected": -0.15625, "rewards/accuracies": 0.5, "rewards/margins": 0.11566162, "logps/rejected": -1.56640625, "logps/chosen": -0.40380859, "logits/rejected": -0.11676025, "logits/chosen": -0.71044922, "nll_loss": 0.40429688, "log_odds_ratio": -0.57910156, "log_odds_chosen": 1.40429688, "epoch": 0.07494145, "global_step/max_steps": "32/427", "percentage": "7.49%", "elapsed_time": "2h 9m 46s", "remaining_time": "1d 2h 41m 54s"}
-{"loss": 0.4777832, "grad_norm": 0.11381598, "learning_rate": 4.668e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004143, "rewards/chosen": -0.03222656, "rewards/rejected": -0.18591309, "rewards/accuracies": 1.0, "rewards/margins": 0.15374756, "logps/rejected": -1.86352539, "logps/chosen": -0.32250977, "logits/rejected": -0.12780762, "logits/chosen": -0.39190674, "nll_loss": 0.32250977, "log_odds_ratio": -0.35107422, "log_odds_chosen": 2.08984375, "epoch": 0.07728337, "global_step/max_steps": "33/427", "percentage": "7.73%", "elapsed_time": "2h 12m 9s", "remaining_time": "1d 2h 17m 57s"}
-{"loss": 0.4772644, "grad_norm": 0.16489679, "learning_rate": 4.656e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004205, "rewards/chosen": -0.04858398, "rewards/rejected": -0.04470825, "rewards/accuracies": 0.25, "rewards/margins": -0.00387573, "logps/rejected": -0.44677734, "logps/chosen": -0.48583984, "logits/rejected": -0.17773438, "logits/chosen": -0.4934082, "nll_loss": 0.48632812, "log_odds_ratio": -0.79589844, "log_odds_chosen": -0.09619141, "epoch": 0.07962529, "global_step/max_steps": "34/427", "percentage": "7.96%", "elapsed_time": "2h 14m 10s", "remaining_time": "1d 1h 50m 49s"}
-{"loss": 0.46020508, "grad_norm": 0.13205887, "learning_rate": 4.645e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004218, "rewards/chosen": -0.03988647, "rewards/rejected": -0.08486938, "rewards/accuracies": 0.5, "rewards/margins": 0.04495239, "logps/rejected": -0.84985352, "logps/chosen": -0.39941406, "logits/rejected": -0.16064453, "logits/chosen": -0.40710449, "nll_loss": 0.39941406, "log_odds_ratio": -0.80487061, "log_odds_chosen": 0.42382812, "epoch": 0.08196721, "global_step/max_steps": "35/427", "percentage": "8.20%", "elapsed_time": "2h 17m 42s", "remaining_time": "1d 1h 42m 15s"}
-{"loss": 0.59329224, "grad_norm": 0.14778522, "learning_rate": 4.633e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004245, "rewards/chosen": -0.0458374, "rewards/rejected": -0.02877808, "rewards/accuracies": 0.25, "rewards/margins": -0.01705933, "logps/rejected": -0.28735352, "logps/chosen": -0.45800781, "logits/rejected": -0.09161377, "logits/chosen": -0.91308594, "nll_loss": 0.45703125, "log_odds_ratio": -0.99023438, "log_odds_chosen": -0.46337891, "epoch": 0.08430913, "global_step/max_steps": "36/427", "percentage": "8.43%", "elapsed_time": "2h 20m 44s", "remaining_time": "1d 1h 28m 35s"}
-{"loss": 0.45910645, "grad_norm": 0.11315469, "learning_rate": 4.621e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004254, "rewards/chosen": -0.03588867, "rewards/rejected": -0.02941895, "rewards/accuracies": 0.0, "rewards/margins": -0.00646973, "logps/rejected": -0.29418945, "logps/chosen": -0.35888672, "logits/rejected": -0.35452271, "logits/chosen": -0.5970459, "nll_loss": 0.35839844, "log_odds_ratio": -0.81152344, "log_odds_chosen": -0.21923828, "epoch": 0.08665105, "global_step/max_steps": "37/427", "percentage": "8.67%", "elapsed_time": "2h 24m 23s", "remaining_time": "1d 1h 21m 54s"}
-{"loss": 0.48278809, "grad_norm": 0.13408595, "learning_rate": 4.609e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004284, "rewards/chosen": -0.03643799, "rewards/rejected": -0.0340271, "rewards/accuracies": 0.5, "rewards/margins": -0.00241089, "logps/rejected": -0.34033203, "logps/chosen": -0.36474609, "logits/rejected": -0.23217773, "logits/chosen": -0.53369141, "nll_loss": 0.36523438, "log_odds_ratio": -0.75195312, "log_odds_chosen": -0.10058594, "epoch": 0.08899297, "global_step/max_steps": "38/427", "percentage": "8.90%", "elapsed_time": "2h 27m 13s", "remaining_time": "1d 1h 7m 11s"}
-{"loss": 0.44549561, "grad_norm": 0.12208538, "learning_rate": 4.597e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004289, "rewards/chosen": -0.03860474, "rewards/rejected": -0.11184692, "rewards/accuracies": 0.5, "rewards/margins": 0.07315063, "logps/rejected": -1.11962891, "logps/chosen": -0.38574219, "logits/rejected": -0.0774231, "logits/chosen": -0.59606934, "nll_loss": 0.38476562, "log_odds_ratio": -0.62696838, "log_odds_chosen": 1.09082031, "epoch": 0.09133489, "global_step/max_steps": "39/427", "percentage": "9.13%", "elapsed_time": "2h 30m 57s", "remaining_time": "1d 1h 1m 52s"}
-{"loss": 0.4838562, "grad_norm": 0.13792332, "learning_rate": 4.585e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004319, "rewards/chosen": -0.052948, "rewards/rejected": -0.03369141, "rewards/accuracies": 0.0, "rewards/margins": -0.01925659, "logps/rejected": -0.33740234, "logps/chosen": -0.52905273, "logits/rejected": -0.1697998, "logits/chosen": -0.97949219, "nll_loss": 0.5300293, "log_odds_ratio": -0.98632812, "log_odds_chosen": -0.49047852, "epoch": 0.09367681, "global_step/max_steps": "40/427", "percentage": "9.37%", "elapsed_time": "2h 33m 46s", "remaining_time": "1d 0h 47m 44s"}
-{"eval_loss": 0.51237249, "eval_runtime": 649.2264, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04311155, "eval_rewards/rejected": -0.0717497, "eval_rewards/accuracies": 0.32075471, "eval_rewards/margins": 0.0286681, "eval_logps/rejected": -0.71766287, "eval_logps/chosen": -0.43117997, "eval_logits/rejected": -0.20153117, "eval_logits/chosen": -0.75801402, "eval_nll_loss": 0.43123525, "eval_log_odds_ratio": -0.83568645, "eval_log_odds_chosen": 0.1601931, "epoch": 0.09367681, "global_step/max_steps": "40/427", "percentage": "9.37%", "elapsed_time": "2h 44m 35s", "remaining_time": "1d 2h 32m 25s"}
-{"loss": 0.52230835, "grad_norm": 0.16532931, "learning_rate": 4.573e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004045, "rewards/chosen": -0.03131104, "rewards/rejected": -0.4427948, "rewards/accuracies": 0.5, "rewards/margins": 0.41087341, "logps/rejected": -4.42041016, "logps/chosen": -0.31323242, "logits/rejected": -0.205513, "logits/chosen": -0.55297852, "nll_loss": 0.31274414, "log_odds_ratio": -0.62792969, "log_odds_chosen": 4.25512695, "epoch": 0.09601874, "global_step/max_steps": "41/427", "percentage": "9.60%", "elapsed_time": "2h 48m 21s", "remaining_time": "1d 2h 25m 1s"}
-{"loss": 0.53305054, "grad_norm": 0.16182522, "learning_rate": 4.562e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004076, "rewards/chosen": -0.0453186, "rewards/rejected": -0.09118652, "rewards/accuracies": 0.25, "rewards/margins": 0.04589844, "logps/rejected": -0.9140625, "logps/chosen": -0.45288086, "logits/rejected": -0.30151367, "logits/chosen": -0.74414062, "nll_loss": 0.45288086, "log_odds_ratio": -0.77935791, "log_odds_chosen": 0.5546875, "epoch": 0.09836066, "global_step/max_steps": "42/427", "percentage": "9.84%", "elapsed_time": "2h 51m 9s", "remaining_time": "1d 2h 8m 59s"}
-{"loss": 0.45965576, "grad_norm": 0.12154767, "learning_rate": 4.55e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004081, "rewards/chosen": -0.04656982, "rewards/rejected": -0.60906982, "rewards/accuracies": 0.25, "rewards/margins": 0.56304932, "logps/rejected": -6.09082031, "logps/chosen": -0.46533203, "logits/rejected": -0.44580078, "logits/chosen": -0.73974609, "nll_loss": 0.46484375, "log_odds_ratio": -0.63671875, "log_odds_chosen": 5.78710938, "epoch": 0.10070258, "global_step/max_steps": "43/427", "percentage": "10.07%", "elapsed_time": "2h 55m 0s", "remaining_time": "1d 2h 2m 47s"}
-{"loss": 0.42315674, "grad_norm": 0.22619362, "learning_rate": 4.538e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004128, "rewards/chosen": -0.0300293, "rewards/rejected": -0.02929688, "rewards/accuracies": 0.25, "rewards/margins": -0.00073242, "logps/rejected": -0.29248047, "logps/chosen": -0.30102539, "logits/rejected": -0.36132812, "logits/chosen": -0.39453125, "nll_loss": 0.30102539, "log_odds_ratio": -0.70703125, "log_odds_chosen": -0.03198242, "epoch": 0.1030445, "global_step/max_steps": "44/427", "percentage": "10.30%", "elapsed_time": "2h 57m 4s", "remaining_time": "1d 1h 41m 17s"}
-{"loss": 0.45684814, "grad_norm": 0.12488461, "learning_rate": 4.526e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004181, "rewards/chosen": -0.03707886, "rewards/rejected": -1.30975342, "rewards/accuracies": 1.0, "rewards/margins": 1.27105713, "logps/rejected": -13.06640625, "logps/chosen": -0.37060547, "logits/rejected": -0.29882812, "logits/chosen": -0.65209961, "nll_loss": 0.37011719, "log_odds_ratio": -0.28125, "log_odds_chosen": 13.51855469, "epoch": 0.10538642, "global_step/max_steps": "45/427", "percentage": "10.54%", "elapsed_time": "2h 58m 46s", "remaining_time": "1d 1h 17m 40s"}
-{"loss": 0.42669678, "grad_norm": 0.12028078, "learning_rate": 4.514e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004236, "rewards/chosen": -0.03182983, "rewards/rejected": -0.04129028, "rewards/accuracies": 0.5, "rewards/margins": 0.00942993, "logps/rejected": -0.4128418, "logps/chosen": -0.31860352, "logits/rejected": -0.3503418, "logits/chosen": -0.56445312, "nll_loss": 0.31982422, "log_odds_ratio": -0.6496582, "log_odds_chosen": 0.2746582, "epoch": 0.10772834, "global_step/max_steps": "46/427", "percentage": "10.77%", "elapsed_time": "3h 0m 24s", "remaining_time": "1d 0h 54m 15s"}
-{"loss": 0.50436401, "grad_norm": 0.28547135, "learning_rate": 4.502e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00423, "rewards/chosen": -0.03616333, "rewards/rejected": -0.61096191, "rewards/accuracies": 0.5, "rewards/margins": 0.57550049, "logps/rejected": -6.10595703, "logps/chosen": -0.36206055, "logits/rejected": -0.39697266, "logits/chosen": -0.50952148, "nll_loss": 0.36303711, "log_odds_ratio": -0.47753906, "log_odds_chosen": 6.35888672, "epoch": 0.11007026, "global_step/max_steps": "47/427", "percentage": "11.01%", "elapsed_time": "3h 4m 36s", "remaining_time": "1d 0h 52m 32s"}
-{"loss": 0.46206665, "grad_norm": 0.10780939, "learning_rate": 4.491e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004243, "rewards/chosen": -0.03994751, "rewards/rejected": -0.29519653, "rewards/accuracies": 0.75, "rewards/margins": 0.256073, "logps/rejected": -2.94824219, "logps/chosen": -0.39892578, "logits/rejected": -0.49072266, "logits/chosen": -0.62060547, "nll_loss": 0.39941406, "log_odds_ratio": -0.53759766, "log_odds_chosen": 2.90380859, "epoch": 0.11241218, "global_step/max_steps": "48/427", "percentage": "11.24%", "elapsed_time": "3h 7m 57s", "remaining_time": "1d 0h 44m 8s"}
-{"loss": 0.57531738, "grad_norm": 0.15520278, "learning_rate": 4.479e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004258, "rewards/chosen": -0.03277588, "rewards/rejected": -0.02929688, "rewards/accuracies": 0.25, "rewards/margins": -0.003479, "logps/rejected": -0.29296875, "logps/chosen": -0.32788086, "logits/rejected": -0.28710938, "logits/chosen": -0.34228516, "nll_loss": 0.32666016, "log_odds_ratio": -0.76269531, "log_odds_chosen": -0.12670898, "epoch": 0.1147541, "global_step/max_steps": "49/427", "percentage": "11.48%", "elapsed_time": "3h 11m 13s", "remaining_time": "1d 0h 35m 7s"}
-{"loss": 0.50140381, "grad_norm": 0.50272202, "learning_rate": 4.467e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004276, "rewards/chosen": -0.03396606, "rewards/rejected": -0.03460693, "rewards/accuracies": 0.25, "rewards/margins": 0.00064087, "logps/rejected": -0.34594727, "logps/chosen": -0.33984375, "logits/rejected": -0.37194824, "logits/chosen": -0.58886719, "nll_loss": 0.33984375, "log_odds_ratio": -0.70898438, "log_odds_chosen": -0.01245117, "epoch": 0.11709602, "global_step/max_steps": "50/427", "percentage": "11.71%", "elapsed_time": "3h 14m 17s", "remaining_time": "1d 0h 24m 56s"}
-{"eval_loss": 0.50619721, "eval_runtime": 649.5793, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04292269, "eval_rewards/rejected": -0.07398383, "eval_rewards/accuracies": 0.3773585, "eval_rewards/margins": 0.03107496, "eval_logps/rejected": -0.73977375, "eval_logps/chosen": -0.42930055, "eval_logits/rejected": -0.27124828, "eval_logits/chosen": -0.72703695, "eval_nll_loss": 0.42930055, "eval_log_odds_ratio": -0.78712779, "eval_log_odds_chosen": 0.25226635, "epoch": 0.11709602, "global_step/max_steps": "50/427", "percentage": "11.71%", "elapsed_time": "3h 25m 6s", "remaining_time": "1d 1h 46m 33s"}
-{"loss": 0.4916687, "grad_norm": 0.11526292, "learning_rate": 4.455e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004055, "rewards/chosen": -0.03533936, "rewards/rejected": -0.08547974, "rewards/accuracies": 0.5, "rewards/margins": 0.05020142, "logps/rejected": -0.85546875, "logps/chosen": -0.35302734, "logits/rejected": -0.48486328, "logits/chosen": -0.41455078, "nll_loss": 0.35205078, "log_odds_ratio": -0.65530396, "log_odds_chosen": 0.78320312, "epoch": 0.11943794, "global_step/max_steps": "51/427", "percentage": "11.94%", "elapsed_time": "3h 29m 1s", "remaining_time": "1d 1h 41m 0s"}
-{"loss": 0.53295898, "grad_norm": 5.82146025, "learning_rate": 4.443e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00405, "rewards/chosen": -0.04553223, "rewards/rejected": -0.03747559, "rewards/accuracies": 0.25, "rewards/margins": -0.00805664, "logps/rejected": -0.37548828, "logps/chosen": -0.45556641, "logits/rejected": -0.46850586, "logits/chosen": -0.54370117, "nll_loss": 0.45458984, "log_odds_ratio": -0.83984375, "log_odds_chosen": -0.26025391, "epoch": 0.12177986, "global_step/max_steps": "52/427", "percentage": "12.18%", "elapsed_time": "3h 33m 22s", "remaining_time": "1d 1h 38m 46s"}
-{"loss": 0.50579834, "grad_norm": 0.18414752, "learning_rate": 4.431e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004064, "rewards/chosen": -0.04064941, "rewards/rejected": -0.03622437, "rewards/accuracies": 0.5, "rewards/margins": -0.00442505, "logps/rejected": -0.36279297, "logps/chosen": -0.40600586, "logits/rejected": -0.22290039, "logits/chosen": -0.91748047, "nll_loss": 0.40649414, "log_odds_ratio": -0.78710938, "log_odds_chosen": -0.08789062, "epoch": 0.12412178, "global_step/max_steps": "53/427", "percentage": "12.41%", "elapsed_time": "3h 36m 46s", "remaining_time": "1d 1h 29m 40s"}
-{"loss": 0.49060059, "grad_norm": 0.10880356, "learning_rate": 4.419e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004102, "rewards/chosen": -0.05502319, "rewards/rejected": -0.03515625, "rewards/accuracies": 0.25, "rewards/margins": -0.01986694, "logps/rejected": -0.35107422, "logps/chosen": -0.55029297, "logits/rejected": -0.2277832, "logits/chosen": -1.09960938, "nll_loss": 0.55175781, "log_odds_ratio": -0.99902344, "log_odds_chosen": -0.48876953, "epoch": 0.1264637, "global_step/max_steps": "54/427", "percentage": "12.65%", "elapsed_time": "3h 38m 50s", "remaining_time": "1d 1h 11m 36s"}
-{"loss": 0.48699951, "grad_norm": 1.88301575, "learning_rate": 4.408e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004133, "rewards/chosen": -0.03845215, "rewards/rejected": -0.0382843, "rewards/accuracies": 0.5, "rewards/margins": -0.00016785, "logps/rejected": -0.38305664, "logps/chosen": -0.38427734, "logits/rejected": -0.37060547, "logits/chosen": -0.75634766, "nll_loss": 0.38330078, "log_odds_ratio": -0.81884766, "log_odds_chosen": -0.15429688, "epoch": 0.12880562, "global_step/max_steps": "55/427", "percentage": "12.88%", "elapsed_time": "3h 41m 10s", "remaining_time": "1d 0h 55m 58s"}
-{"loss": 0.50448608, "grad_norm": 0.13476931, "learning_rate": 4.396e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004173, "rewards/chosen": -0.05978394, "rewards/rejected": -0.03988647, "rewards/accuracies": 0.25, "rewards/margins": -0.01986694, "logps/rejected": -0.39941406, "logps/chosen": -0.59838867, "logits/rejected": -0.22473145, "logits/chosen": -1.02294922, "nll_loss": 0.59741211, "log_odds_ratio": -0.97753906, "log_odds_chosen": -0.44042969, "epoch": 0.13114754, "global_step/max_steps": "56/427", "percentage": "13.11%", "elapsed_time": "3h 43m 3s", "remaining_time": "1d 0h 37m 43s"}
-{"loss": 0.55419922, "grad_norm": 0.1918094, "learning_rate": 4.384e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00418, "rewards/chosen": -0.03363037, "rewards/rejected": -0.04986572, "rewards/accuracies": 1.0, "rewards/margins": 0.01623535, "logps/rejected": -0.49804688, "logps/chosen": -0.33642578, "logits/rejected": -0.179245, "logits/chosen": -1.06640625, "nll_loss": 0.33691406, "log_odds_ratio": -0.49023438, "log_odds_chosen": 0.4765625, "epoch": 0.13348946, "global_step/max_steps": "57/427", "percentage": "13.35%", "elapsed_time": "3h 46m 42s", "remaining_time": "1d 0h 31m 34s"}
-{"loss": 0.48077393, "grad_norm": 0.15170488, "learning_rate": 4.372e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00418, "rewards/chosen": -0.03845215, "rewards/rejected": -0.34371948, "rewards/accuracies": 0.75, "rewards/margins": 0.30545044, "logps/rejected": -3.43701172, "logps/chosen": -0.38500977, "logits/rejected": -0.10671997, "logits/chosen": -0.7956543, "nll_loss": 0.38500977, "log_odds_ratio": -0.56738281, "log_odds_chosen": 3.42382812, "epoch": 0.13583138, "global_step/max_steps": "58/427", "percentage": "13.58%", "elapsed_time": "3h 50m 38s", "remaining_time": "1d 0h 27m 22s"}
-{"loss": 0.46072388, "grad_norm": 0.28942287, "learning_rate": 4.36e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004186, "rewards/chosen": -0.03817749, "rewards/rejected": -0.05761719, "rewards/accuracies": 0.5, "rewards/margins": 0.01947021, "logps/rejected": -0.57714844, "logps/chosen": -0.38183594, "logits/rejected": -0.44189453, "logits/chosen": -0.74804688, "nll_loss": 0.38037109, "log_odds_ratio": -0.56860352, "log_odds_chosen": 0.43066406, "epoch": 0.1381733, "global_step/max_steps": "59/427", "percentage": "13.82%", "elapsed_time": "3h 54m 20s", "remaining_time": "1d 0h 21m 40s"}
-{"loss": 0.52929688, "grad_norm": 0.16787337, "learning_rate": 4.348e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004211, "rewards/chosen": -0.05603027, "rewards/rejected": -0.04046631, "rewards/accuracies": 0.5, "rewards/margins": -0.01556396, "logps/rejected": -0.40429688, "logps/chosen": -0.56054688, "logits/rejected": -0.49169922, "logits/chosen": -0.48535156, "nll_loss": 0.56005859, "log_odds_ratio": -0.96679688, "log_odds_chosen": -0.41113281, "epoch": 0.14051522, "global_step/max_steps": "60/427", "percentage": "14.05%", "elapsed_time": "3h 56m 53s", "remaining_time": "1d 0h 9m 0s"}
-{"eval_loss": 0.50032395, "eval_runtime": 649.1355, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.0433603, "eval_rewards/rejected": -0.09255002, "eval_rewards/accuracies": 0.56603771, "eval_rewards/margins": 0.04924271, "eval_logps/rejected": -0.92613137, "eval_logps/chosen": -0.43350163, "eval_logits/rejected": -0.13810989, "eval_logits/chosen": -0.69627064, "eval_nll_loss": 0.43331736, "eval_log_odds_ratio": -0.67119324, "eval_log_odds_chosen": 0.58247346, "epoch": 0.14051522, "global_step/max_steps": "60/427", "percentage": "14.05%", "elapsed_time": "4h 7m 42s", "remaining_time": "1d 1h 15m 11s"}
-{"loss": 0.52056885, "grad_norm": 0.19590701, "learning_rate": 4.336e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004033, "rewards/chosen": -0.04000854, "rewards/rejected": -0.04705811, "rewards/accuracies": 0.5, "rewards/margins": 0.00704956, "logps/rejected": -0.47021484, "logps/chosen": -0.40039062, "logits/rejected": -0.02050781, "logits/chosen": -0.71929932, "nll_loss": 0.39990234, "log_odds_ratio": -0.59228516, "log_odds_chosen": 0.25878906, "epoch": 0.14285714, "global_step/max_steps": "61/427", "percentage": "14.29%", "elapsed_time": "4h 11m 28s", "remaining_time": "1d 1h 8m 50s"}
-{"loss": 0.47772217, "grad_norm": 0.44542712, "learning_rate": 4.325e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004017, "rewards/chosen": -0.04418945, "rewards/rejected": -0.87588501, "rewards/accuracies": 0.5, "rewards/margins": 0.83062744, "logps/rejected": -8.75488281, "logps/chosen": -0.44189453, "logits/rejected": -0.11401367, "logits/chosen": -0.56274414, "nll_loss": 0.44238281, "log_odds_ratio": -0.53417969, "log_odds_chosen": 8.74267578, "epoch": 0.14519906, "global_step/max_steps": "62/427", "percentage": "14.52%", "elapsed_time": "4h 16m 37s", "remaining_time": "1d 1h 10m 48s"}
-{"loss": 0.4909668, "grad_norm": 0.16470946, "learning_rate": 4.313e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00404, "rewards/chosen": -0.04055786, "rewards/rejected": -0.04620361, "rewards/accuracies": 0.75, "rewards/margins": 0.00564575, "logps/rejected": -0.46191406, "logps/chosen": -0.40527344, "logits/rejected": -0.17889404, "logits/chosen": -0.68017578, "nll_loss": 0.40527344, "log_odds_ratio": -0.625, "log_odds_chosen": 0.16894531, "epoch": 0.14754098, "global_step/max_steps": "63/427", "percentage": "14.75%", "elapsed_time": "4h 19m 19s", "remaining_time": "1d 0h 58m 19s"}
-{"loss": 0.48736572, "grad_norm": 0.11616429, "learning_rate": 4.301e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004057, "rewards/chosen": -0.04040527, "rewards/rejected": -0.05291748, "rewards/accuracies": 0.75, "rewards/margins": 0.01251221, "logps/rejected": -0.52929688, "logps/chosen": -0.40429688, "logits/rejected": -0.18725586, "logits/chosen": -0.765625, "nll_loss": 0.40478516, "log_odds_ratio": -0.57666016, "log_odds_chosen": 0.27734375, "epoch": 0.1498829, "global_step/max_steps": "64/427", "percentage": "14.99%", "elapsed_time": "4h 22m 18s", "remaining_time": "1d 0h 47m 44s"}
-{"loss": 0.44340515, "grad_norm": 1.06956637, "learning_rate": 4.289e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00408, "rewards/chosen": -0.03991699, "rewards/rejected": -0.05264282, "rewards/accuracies": 0.75, "rewards/margins": 0.01278687, "logps/rejected": -0.52685547, "logps/chosen": -0.39892578, "logits/rejected": -0.29483032, "logits/chosen": -0.69042969, "nll_loss": 0.39892578, "log_odds_ratio": -0.64233398, "log_odds_chosen": 0.27441406, "epoch": 0.15222482, "global_step/max_steps": "65/427", "percentage": "15.22%", "elapsed_time": "4h 24m 54s", "remaining_time": "1d 0h 35m 20s"}
-{"loss": 0.47470093, "grad_norm": 0.17185293, "learning_rate": 4.277e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00407, "rewards/chosen": -0.03918457, "rewards/rejected": -0.04418945, "rewards/accuracies": 0.75, "rewards/margins": 0.00500488, "logps/rejected": -0.44189453, "logps/chosen": -0.39208984, "logits/rejected": -0.20837402, "logits/chosen": -0.69824219, "nll_loss": 0.39160156, "log_odds_ratio": -0.62207031, "log_odds_chosen": 0.15820312, "epoch": 0.15456674, "global_step/max_steps": "66/427", "percentage": "15.46%", "elapsed_time": "4h 29m 41s", "remaining_time": "1d 0h 35m 9s"}
-{"loss": 0.52233887, "grad_norm": 0.30470189, "learning_rate": 4.265e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004086, "rewards/chosen": -0.03817749, "rewards/rejected": -0.05126953, "rewards/accuracies": 0.75, "rewards/margins": 0.01309204, "logps/rejected": -0.51318359, "logps/chosen": -0.38134766, "logits/rejected": -0.12841797, "logits/chosen": -0.68359375, "nll_loss": 0.38134766, "log_odds_ratio": -0.546875, "log_odds_chosen": 0.33398438, "epoch": 0.15690867, "global_step/max_steps": "67/427", "percentage": "15.69%", "elapsed_time": "4h 32m 42s", "remaining_time": "1d 0h 25m 20s"}
-{"loss": 0.49057007, "grad_norm": 0.13113533, "learning_rate": 4.254e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004111, "rewards/chosen": -0.05041504, "rewards/rejected": -0.04748535, "rewards/accuracies": 0.25, "rewards/margins": -0.00292969, "logps/rejected": -0.47558594, "logps/chosen": -0.50488281, "logits/rejected": -0.34301758, "logits/chosen": -0.96435547, "nll_loss": 0.50439453, "log_odds_ratio": -0.75732422, "log_odds_chosen": -0.08886719, "epoch": 0.15925059, "global_step/max_steps": "68/427", "percentage": "15.93%", "elapsed_time": "4h 35m 6s", "remaining_time": "1d 0h 12m 26s"}
-{"loss": 0.43798828, "grad_norm": 0.32504648, "learning_rate": 4.242e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004127, "rewards/chosen": -0.03616333, "rewards/rejected": -0.03979492, "rewards/accuracies": 0.5, "rewards/margins": 0.00363159, "logps/rejected": -0.3972168, "logps/chosen": -0.36181641, "logits/rejected": -0.24987793, "logits/chosen": -0.52514648, "nll_loss": 0.36230469, "log_odds_ratio": -0.66308594, "log_odds_chosen": 0.08154297, "epoch": 0.16159251, "global_step/max_steps": "69/427", "percentage": "16.16%", "elapsed_time": "4h 38m 2s", "remaining_time": "1d 0h 2m 36s"}
-{"loss": 0.50738525, "grad_norm": 0.13896063, "learning_rate": 4.23e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004142, "rewards/chosen": -0.04675293, "rewards/rejected": -0.03753662, "rewards/accuracies": 0.5, "rewards/margins": -0.00918579, "logps/rejected": -0.37548828, "logps/chosen": -0.46728516, "logits/rejected": -0.36791992, "logits/chosen": -0.61938477, "nll_loss": 0.46728516, "log_odds_ratio": -0.99755859, "log_odds_chosen": -0.39794922, "epoch": 0.16393443, "global_step/max_steps": "70/427", "percentage": "16.39%", "elapsed_time": "4h 41m 4s", "remaining_time": "23h 53m 31s"}
-{"eval_loss": 0.49468446, "eval_runtime": 649.8556, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04305167, "eval_rewards/rejected": -0.13020986, "eval_rewards/accuracies": 0.56603771, "eval_rewards/margins": 0.08725494, "eval_logps/rejected": -1.30323184, "eval_logps/chosen": -0.43044296, "eval_logits/rejected": -0.14193164, "eval_logits/chosen": -0.71628559, "eval_nll_loss": 0.4306272, "eval_log_odds_ratio": -0.634305, "eval_log_odds_chosen": 1.00788617, "epoch": 0.16393443, "global_step/max_steps": "70/427", "percentage": "16.39%", "elapsed_time": "4h 51m 54s", "remaining_time": "1d 0h 48m 45s"}
-{"loss": 0.55783081, "grad_norm": 0.14518777, "learning_rate": 4.218e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.003999, "rewards/chosen": -0.04846191, "rewards/rejected": -1.47964478, "rewards/accuracies": 0.5, "rewards/margins": 1.43423462, "logps/rejected": -14.828125, "logps/chosen": -0.48486328, "logits/rejected": -0.45214844, "logits/chosen": -0.32409668, "nll_loss": 0.48339844, "log_odds_ratio": -0.72363281, "log_odds_chosen": 14.37109375, "epoch": 0.16627635, "global_step/max_steps": "71/427", "percentage": "16.63%", "elapsed_time": "4h 55m 17s", "remaining_time": "1d 0h 40m 34s"}
-{"loss": 0.49111938, "grad_norm": 0.13513511, "learning_rate": 4.206e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004026, "rewards/chosen": -0.05432129, "rewards/rejected": -0.04205322, "rewards/accuracies": 0.5, "rewards/margins": -0.01229858, "logps/rejected": -0.42114258, "logps/chosen": -0.54296875, "logits/rejected": -0.33721924, "logits/chosen": -0.69613647, "nll_loss": 0.54199219, "log_odds_ratio": -0.98632812, "log_odds_chosen": -0.43457031, "epoch": 0.16861827, "global_step/max_steps": "72/427", "percentage": "16.86%", "elapsed_time": "4h 57m 27s", "remaining_time": "1d 0h 26m 39s"}
-{"loss": 0.42071533, "grad_norm": 0.13913843, "learning_rate": 4.194e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004037, "rewards/chosen": -0.037323, "rewards/rejected": -0.05480957, "rewards/accuracies": 0.75, "rewards/margins": 0.01751709, "logps/rejected": -0.54785156, "logps/chosen": -0.37353516, "logits/rejected": -0.10488892, "logits/chosen": -0.91455078, "nll_loss": 0.37353516, "log_odds_ratio": -0.50366211, "log_odds_chosen": 0.49462891, "epoch": 0.17096019, "global_step/max_steps": "73/427", "percentage": "17.10%", "elapsed_time": "5h 0m 47s", "remaining_time": "1d 0h 18m 36s"}
-{"loss": 0.52059937, "grad_norm": 0.11671159, "learning_rate": 4.182e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004066, "rewards/chosen": -0.03878784, "rewards/rejected": -0.05651855, "rewards/accuracies": 0.75, "rewards/margins": 0.01773071, "logps/rejected": -0.56591797, "logps/chosen": -0.38769531, "logits/rejected": -0.11151123, "logits/chosen": -0.59002686, "nll_loss": 0.38769531, "log_odds_ratio": -0.52246094, "log_odds_chosen": 0.40917969, "epoch": 0.17330211, "global_step/max_steps": "74/427", "percentage": "17.33%", "elapsed_time": "5h 2m 42s", "remaining_time": "1d 0h 3m 57s"}
-{"loss": 0.44638062, "grad_norm": 0.09498549, "learning_rate": 4.171e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00408, "rewards/chosen": -0.04721069, "rewards/rejected": -0.14761353, "rewards/accuracies": 0.75, "rewards/margins": 0.10058594, "logps/rejected": -1.47753906, "logps/chosen": -0.47192383, "logits/rejected": -0.29711914, "logits/chosen": -0.48950195, "nll_loss": 0.47167969, "log_odds_ratio": -0.60546875, "log_odds_chosen": 1.32324219, "epoch": 0.17564403, "global_step/max_steps": "75/427", "percentage": "17.56%", "elapsed_time": "5h 5m 45s", "remaining_time": "23h 55m 1s"}
-{"loss": 0.48370361, "grad_norm": 0.14467207, "learning_rate": 4.159e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004093, "rewards/chosen": -0.034729, "rewards/rejected": -0.03076172, "rewards/accuracies": 0.5, "rewards/margins": -0.00396729, "logps/rejected": -0.30761719, "logps/chosen": -0.34765625, "logits/rejected": -0.29813766, "logits/chosen": -0.4519043, "nll_loss": 0.34814453, "log_odds_ratio": -0.76953125, "log_odds_chosen": -0.12207031, "epoch": 0.17798595, "global_step/max_steps": "76/427", "percentage": "17.80%", "elapsed_time": "5h 8m 52s", "remaining_time": "23h 46m 31s"}
-{"loss": 0.48376465, "grad_norm": 0.45439687, "learning_rate": 4.147e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004098, "rewards/chosen": -0.03607178, "rewards/rejected": -0.10430908, "rewards/accuracies": 0.25, "rewards/margins": 0.06808472, "logps/rejected": -1.04541016, "logps/chosen": -0.36083984, "logits/rejected": -0.15444946, "logits/chosen": -0.18226624, "nll_loss": 0.359375, "log_odds_ratio": -0.59378052, "log_odds_chosen": 0.93212891, "epoch": 0.18032787, "global_step/max_steps": "77/427", "percentage": "18.03%", "elapsed_time": "5h 12m 32s", "remaining_time": "23h 40m 37s"}
-{"loss": 0.48065186, "grad_norm": 0.15274379, "learning_rate": 4.135e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00412, "rewards/chosen": -0.03997803, "rewards/rejected": -0.73776245, "rewards/accuracies": 0.75, "rewards/margins": 0.69769287, "logps/rejected": -7.37695312, "logps/chosen": -0.3996582, "logits/rejected": -0.08618164, "logits/chosen": -0.48840332, "nll_loss": 0.3996582, "log_odds_ratio": -0.55810547, "log_odds_chosen": 7.37695312, "epoch": 0.18266979, "global_step/max_steps": "78/427", "percentage": "18.27%", "elapsed_time": "5h 14m 54s", "remaining_time": "23h 29m 0s"}
-{"loss": 0.42910767, "grad_norm": 0.09739819, "learning_rate": 4.123e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004148, "rewards/chosen": -0.03384399, "rewards/rejected": -0.03231812, "rewards/accuracies": 0.5, "rewards/margins": -0.00152588, "logps/rejected": -0.32324219, "logps/chosen": -0.33813477, "logits/rejected": -0.21105957, "logits/chosen": -0.3145752, "nll_loss": 0.33862305, "log_odds_ratio": -0.71289062, "log_odds_chosen": -0.03930664, "epoch": 0.18501171, "global_step/max_steps": "79/427", "percentage": "18.50%", "elapsed_time": "5h 16m 50s", "remaining_time": "23h 15m 40s"}
-{"loss": 0.44830322, "grad_norm": 0.13371131, "learning_rate": 4.111e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00417, "rewards/chosen": -0.03424072, "rewards/rejected": -0.25064087, "rewards/accuracies": 0.5, "rewards/margins": 0.2159729, "logps/rejected": -2.51049805, "logps/chosen": -0.34277344, "logits/rejected": -0.15299225, "logits/chosen": -0.23145676, "nll_loss": 0.34228516, "log_odds_ratio": -0.58007812, "log_odds_chosen": 2.48388672, "epoch": 0.18735363, "global_step/max_steps": "80/427", "percentage": "18.74%", "elapsed_time": "5h 19m 9s", "remaining_time": "23h 4m 20s"}
-{"eval_loss": 0.48410192, "eval_runtime": 649.6322, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04220178, "eval_rewards/rejected": -0.11121296, "eval_rewards/accuracies": 0.60377359, "eval_rewards/margins": 0.06900197, "eval_logps/rejected": -1.11204672, "eval_logps/chosen": -0.42198557, "eval_logits/rejected": -0.1401206, "eval_logits/chosen": -0.59398031, "eval_nll_loss": 0.42189342, "eval_log_odds_ratio": -0.60478699, "eval_log_odds_chosen": 0.87476045, "epoch": 0.18735363, "global_step/max_steps": "80/427", "percentage": "18.74%", "elapsed_time": "5h 29m 58s", "remaining_time": "23h 51m 17s"}
-{"loss": 0.4838562, "grad_norm": 0.10688755, "learning_rate": 4.1e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004041, "rewards/chosen": -0.04742432, "rewards/rejected": -0.06433105, "rewards/accuracies": 0.5, "rewards/margins": 0.01690674, "logps/rejected": -0.64404297, "logps/chosen": -0.47460938, "logits/rejected": -0.33029175, "logits/chosen": -0.66992188, "nll_loss": 0.47460938, "log_odds_ratio": -0.6105957, "log_odds_chosen": 0.42919922, "epoch": 0.18969555, "global_step/max_steps": "81/427", "percentage": "18.97%", "elapsed_time": "5h 33m 26s", "remaining_time": "23h 44m 21s"}
-{"loss": 0.51446533, "grad_norm": 0.12840466, "learning_rate": 4.088e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004061, "rewards/chosen": -0.04217529, "rewards/rejected": -0.04968262, "rewards/accuracies": 0.75, "rewards/margins": 0.00750732, "logps/rejected": -0.49658203, "logps/chosen": -0.421875, "logits/rejected": -0.12835693, "logits/chosen": -0.62451172, "nll_loss": 0.42138672, "log_odds_ratio": -0.59960938, "log_odds_chosen": 0.22509766, "epoch": 0.19203747, "global_step/max_steps": "82/427", "percentage": "19.20%", "elapsed_time": "5h 35m 58s", "remaining_time": "23h 33m 32s"}
-{"loss": 0.44631958, "grad_norm": 0.11300107, "learning_rate": 4.076e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004065, "rewards/chosen": -0.03552246, "rewards/rejected": -0.04354858, "rewards/accuracies": 0.5, "rewards/margins": 0.00802612, "logps/rejected": -0.4362793, "logps/chosen": -0.35595703, "logits/rejected": -0.17306519, "logits/chosen": -0.64941406, "nll_loss": 0.35595703, "log_odds_ratio": -0.73022461, "log_odds_chosen": 0.13720703, "epoch": 0.19437939, "global_step/max_steps": "83/427", "percentage": "19.44%", "elapsed_time": "5h 39m 41s", "remaining_time": "23h 27m 54s"}
-{"loss": 0.4805603, "grad_norm": 0.13544552, "learning_rate": 4.064e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.00406, "rewards/chosen": -0.05224609, "rewards/rejected": -0.07739258, "rewards/accuracies": 1.0, "rewards/margins": 0.02514648, "logps/rejected": -0.7734375, "logps/chosen": -0.52197266, "logits/rejected": -0.03617859, "logits/chosen": -0.8203125, "nll_loss": 0.52294922, "log_odds_ratio": -0.453125, "log_odds_chosen": 0.57666016, "epoch": 0.19672131, "global_step/max_steps": "84/427", "percentage": "19.67%", "elapsed_time": "5h 44m 11s", "remaining_time": "23h 25m 27s"}
-{"loss": 0.48184204, "grad_norm": 0.144611, "learning_rate": 4.052e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004085, "rewards/chosen": -0.04199219, "rewards/rejected": -0.05023193, "rewards/accuracies": 0.5, "rewards/margins": 0.00823975, "logps/rejected": -0.50244141, "logps/chosen": -0.41943359, "logits/rejected": -0.18270874, "logits/chosen": -0.59298706, "nll_loss": 0.41845703, "log_odds_ratio": -0.66162109, "log_odds_chosen": 0.16503906, "epoch": 0.19906323, "global_step/max_steps": "85/427", "percentage": "19.91%", "elapsed_time": "5h 46m 10s", "remaining_time": "23h 12m 49s"}
-{"loss": 0.49508667, "grad_norm": 0.12818193, "learning_rate": 4.04e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004098, "rewards/chosen": -0.04528809, "rewards/rejected": -0.05853271, "rewards/accuracies": 0.5, "rewards/margins": 0.01324463, "logps/rejected": -0.58496094, "logps/chosen": -0.45263672, "logits/rejected": -0.1505127, "logits/chosen": -0.50593853, "nll_loss": 0.45263672, "log_odds_ratio": -0.60986328, "log_odds_chosen": 0.25439453, "epoch": 0.20140515, "global_step/max_steps": "86/427", "percentage": "20.14%", "elapsed_time": "5h 49m 10s", "remaining_time": "23h 4m 31s"}
-{"loss": 0.480896, "grad_norm": 0.10388886, "learning_rate": 4.028e-05, "memory(GiB)": 133.61, "train_speed(iter/s)": 0.004093, "rewards/chosen": -0.04095459, "rewards/rejected": -0.03320312, "rewards/accuracies": 0.5, "rewards/margins": -0.00775146, "logps/rejected": -0.33251953, "logps/chosen": -0.40966797, "logits/rejected": -0.41650391, "logits/chosen": -0.46118164, "nll_loss": 0.41015625, "log_odds_ratio": -0.81054688, "log_odds_chosen": -0.19970703, "epoch": 0.20374707, "global_step/max_steps": "87/427", "percentage": "20.37%", "elapsed_time": "5h 53m 38s", "remaining_time": "23h 2m 1s"}
-{"loss": 0.45388794, "grad_norm": 0.32153419, "learning_rate": 4.017e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004113, "rewards/chosen": -0.0355835, "rewards/rejected": -0.04562378, "rewards/accuracies": 0.75, "rewards/margins": 0.01004028, "logps/rejected": -0.45654297, "logps/chosen": -0.35571289, "logits/rejected": -0.22680664, "logits/chosen": -0.69140625, "nll_loss": 0.35571289, "log_odds_ratio": -0.59765625, "log_odds_chosen": 0.22680664, "epoch": 0.20608899, "global_step/max_steps": "88/427", "percentage": "20.61%", "elapsed_time": "5h 55m 59s", "remaining_time": "22h 51m 24s"}
-{"loss": 0.4786377, "grad_norm": 0.19566292, "learning_rate": 4.005e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004112, "rewards/chosen": -0.04998779, "rewards/rejected": -0.04919434, "rewards/accuracies": 0.5, "rewards/margins": -0.00079346, "logps/rejected": -0.4909668, "logps/chosen": -0.50048828, "logits/rejected": -0.44238281, "logits/chosen": -0.64648438, "nll_loss": 0.50024414, "log_odds_ratio": -0.76464844, "log_odds_chosen": -0.0847168, "epoch": 0.20843091, "global_step/max_steps": "89/427", "percentage": "20.84%", "elapsed_time": "6h 0m 9s", "remaining_time": "22h 47m 45s"}
-{"loss": 0.49212646, "grad_norm": 1.07101917, "learning_rate": 3.993e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004104, "rewards/chosen": -0.04125977, "rewards/rejected": -0.03030396, "rewards/accuracies": 0.5, "rewards/margins": -0.01095581, "logps/rejected": -0.30322266, "logps/chosen": -0.41210938, "logits/rejected": -0.25634766, "logits/chosen": -0.67138672, "nll_loss": 0.41308594, "log_odds_ratio": -0.91601562, "log_odds_chosen": -0.37280273, "epoch": 0.21077283, "global_step/max_steps": "90/427", "percentage": "21.08%", "elapsed_time": "6h 4m 54s", "remaining_time": "22h 46m 22s"}
-{"eval_loss": 0.48796305, "eval_runtime": 649.9375, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04223403, "eval_rewards/rejected": -0.12998645, "eval_rewards/accuracies": 0.4528302, "eval_rewards/margins": 0.08775013, "eval_logps/rejected": -1.29775941, "eval_logps/chosen": -0.42224351, "eval_logits/rejected": -0.25342718, "eval_logits/chosen": -0.79054517, "eval_nll_loss": 0.4220224, "eval_log_odds_ratio": -0.74998158, "eval_log_odds_chosen": 0.85327607, "epoch": 0.21077283, "global_step/max_steps": "90/427", "percentage": "21.08%", "elapsed_time": "6h 15m 44s", "remaining_time": "23h 26m 56s"}
-{"loss": 0.5322876, "grad_norm": 0.17315796, "learning_rate": 3.981e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003996, "rewards/chosen": -0.04528809, "rewards/rejected": -0.03082275, "rewards/accuracies": 0.25, "rewards/margins": -0.01446533, "logps/rejected": -0.30859375, "logps/chosen": -0.453125, "logits/rejected": -0.41943359, "logits/chosen": -0.64941406, "nll_loss": 0.45214844, "log_odds_ratio": -0.9609375, "log_odds_chosen": -0.45458984, "epoch": 0.21311475, "global_step/max_steps": "91/427", "percentage": "21.31%", "elapsed_time": "6h 18m 55s", "remaining_time": "23h 19m 7s"}
-{"loss": 0.46182251, "grad_norm": 0.16669042, "learning_rate": 3.969e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004013, "rewards/chosen": -0.0319519, "rewards/rejected": -0.72787476, "rewards/accuracies": 0.25, "rewards/margins": 0.69528198, "logps/rejected": -7.27099609, "logps/chosen": -0.31982422, "logits/rejected": -0.30664062, "logits/chosen": -0.45214844, "nll_loss": 0.31982422, "log_odds_ratio": -0.60449219, "log_odds_chosen": 7.18505859, "epoch": 0.21545667, "global_step/max_steps": "92/427", "percentage": "21.55%", "elapsed_time": "6h 21m 32s", "remaining_time": "23h 9m 18s"}
-{"loss": 0.46731567, "grad_norm": 0.21570912, "learning_rate": 3.957e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004015, "rewards/chosen": -0.04690552, "rewards/rejected": -0.20587158, "rewards/accuracies": 0.5, "rewards/margins": 0.15930176, "logps/rejected": -2.06054688, "logps/chosen": -0.46923828, "logits/rejected": -0.44018555, "logits/chosen": -0.8203125, "nll_loss": 0.46875, "log_odds_ratio": -0.50390625, "log_odds_chosen": 2.00878906, "epoch": 0.21779859, "global_step/max_steps": "93/427", "percentage": "21.78%", "elapsed_time": "6h 25m 28s", "remaining_time": "23h 4m 25s"}
-{"loss": 0.44650269, "grad_norm": 0.14048858, "learning_rate": 3.945e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004034, "rewards/chosen": -0.02972412, "rewards/rejected": -0.0809021, "rewards/accuracies": 0.5, "rewards/margins": 0.05108643, "logps/rejected": -0.80859375, "logps/chosen": -0.29736328, "logits/rejected": -0.33032227, "logits/chosen": -0.91699219, "nll_loss": 0.29736328, "log_odds_ratio": -0.51806641, "log_odds_chosen": 0.92724609, "epoch": 0.22014052, "global_step/max_steps": "94/427", "percentage": "22.01%", "elapsed_time": "6h 27m 45s", "remaining_time": "22h 53m 39s"}
-{"loss": 0.45367432, "grad_norm": 0.10300869, "learning_rate": 3.934e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004055, "rewards/chosen": -0.02999878, "rewards/rejected": -1.35601807, "rewards/accuracies": 1.0, "rewards/margins": 1.32714844, "logps/rejected": -13.546875, "logps/chosen": -0.29980469, "logits/rejected": -0.49169922, "logits/chosen": -0.38671875, "nll_loss": 0.29956055, "log_odds_ratio": -0.29101562, "log_odds_chosen": 14.04345703, "epoch": 0.22248244, "global_step/max_steps": "95/427", "percentage": "22.25%", "elapsed_time": "6h 29m 50s", "remaining_time": "22h 42m 23s"}
-{"loss": 0.52954102, "grad_norm": 0.82431936, "learning_rate": 3.922e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004072, "rewards/chosen": -0.03604126, "rewards/rejected": -0.42626953, "rewards/accuracies": 1.0, "rewards/margins": 0.390625, "logps/rejected": -4.265625, "logps/chosen": -0.36035156, "logits/rejected": -0.15337372, "logits/chosen": -0.99902344, "nll_loss": 0.36035156, "log_odds_ratio": -0.00785828, "log_odds_chosen": 5.09375, "epoch": 0.22482436, "global_step/max_steps": "96/427", "percentage": "22.48%", "elapsed_time": "6h 32m 22s", "remaining_time": "22h 32m 52s"}
-{"loss": 0.41821289, "grad_norm": 0.19138587, "learning_rate": 3.91e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004087, "rewards/chosen": -0.04571533, "rewards/rejected": -0.64404297, "rewards/accuracies": 1.0, "rewards/margins": 0.59875488, "logps/rejected": -6.4453125, "logps/chosen": -0.45703125, "logits/rejected": -0.23681641, "logits/chosen": -0.8828125, "nll_loss": 0.45629883, "log_odds_ratio": -0.08288574, "log_odds_chosen": 7.03320312, "epoch": 0.22716628, "global_step/max_steps": "97/427", "percentage": "22.72%", "elapsed_time": "6h 34m 57s", "remaining_time": "22h 23m 41s"}
-{"loss": 0.42755127, "grad_norm": 0.15083897, "learning_rate": 3.898e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004083, "rewards/chosen": -0.02041626, "rewards/rejected": -0.75411987, "rewards/accuracies": 1.0, "rewards/margins": 0.73544312, "logps/rejected": -7.52978516, "logps/chosen": -0.2043457, "logits/rejected": -0.37597656, "logits/chosen": -0.37646484, "nll_loss": 0.20410156, "log_odds_ratio": -0.30371094, "log_odds_chosen": 8.32128906, "epoch": 0.2295082, "global_step/max_steps": "98/427", "percentage": "22.95%", "elapsed_time": "6h 39m 27s", "remaining_time": "22h 21m 3s"}
-{"loss": 0.45800781, "grad_norm": 0.19231282, "learning_rate": 3.886e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004093, "rewards/chosen": -0.04315186, "rewards/rejected": -0.69506836, "rewards/accuracies": 0.75, "rewards/margins": 0.65148926, "logps/rejected": -6.94873047, "logps/chosen": -0.43212891, "logits/rejected": -0.36425781, "logits/chosen": -0.58227539, "nll_loss": 0.43164062, "log_odds_ratio": -0.453125, "log_odds_chosen": 7.00244141, "epoch": 0.23185012, "global_step/max_steps": "99/427", "percentage": "23.19%", "elapsed_time": "6h 42m 32s", "remaining_time": "22h 13m 40s"}
-{"loss": 0.41799927, "grad_norm": 0.20460135, "learning_rate": 3.874e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004111, "rewards/chosen": -0.03210449, "rewards/rejected": -0.03265381, "rewards/accuracies": 0.25, "rewards/margins": 0.00054932, "logps/rejected": -0.32617188, "logps/chosen": -0.32128906, "logits/rejected": -0.32128906, "logits/chosen": -0.5703125, "nll_loss": 0.32080078, "log_odds_ratio": -0.69335938, "log_odds_chosen": 0.01269531, "epoch": 0.23419204, "global_step/max_steps": "100/427", "percentage": "23.42%", "elapsed_time": "6h 44m 52s", "remaining_time": "22h 3m 55s"}
-{"eval_loss": 0.49397865, "eval_runtime": 649.5234, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04482744, "eval_rewards/rejected": -0.32564905, "eval_rewards/accuracies": 0.66037738, "eval_rewards/margins": 0.28067881, "eval_logps/rejected": -3.25643063, "eval_logps/chosen": -0.44829747, "eval_logits/rejected": -0.28206074, "eval_logits/chosen": -0.7904951, "eval_nll_loss": 0.44827905, "eval_log_odds_ratio": -0.39507252, "eval_log_odds_chosen": 3.31712484, "epoch": 0.23419204, "global_step/max_steps": "100/427", "percentage": "23.42%", "elapsed_time": "6h 55m 41s", "remaining_time": "22h 39m 19s"}
-{"loss": 0.41003418, "grad_norm": 0.13351043, "learning_rate": 3.863e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004007, "rewards/chosen": -0.03530884, "rewards/rejected": -0.02597046, "rewards/accuracies": 0.0, "rewards/margins": -0.00933838, "logps/rejected": -0.26025391, "logps/chosen": -0.35302734, "logits/rejected": -0.33203125, "logits/chosen": -0.54296875, "nll_loss": 0.35327148, "log_odds_ratio": -0.88671875, "log_odds_chosen": -0.34716797, "epoch": 0.23653396, "global_step/max_steps": "101/427", "percentage": "23.65%", "elapsed_time": "6h 59m 31s", "remaining_time": "22h 34m 5s"}
-{"loss": 0.41369629, "grad_norm": 0.09926877, "learning_rate": 3.851e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004011, "rewards/chosen": -0.02911377, "rewards/rejected": -1.00872803, "rewards/accuracies": 1.0, "rewards/margins": 0.9798584, "logps/rejected": -10.08544922, "logps/chosen": -0.29089355, "logits/rejected": -0.30834961, "logits/chosen": -0.58105469, "nll_loss": 0.29101562, "log_odds_ratio": -0.15527344, "log_odds_chosen": 11.0234375, "epoch": 0.23887588, "global_step/max_steps": "102/427", "percentage": "23.89%", "elapsed_time": "7h 3m 15s", "remaining_time": "22h 28m 37s"}
-{"loss": 0.42337036, "grad_norm": 0.13509169, "learning_rate": 3.839e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004023, "rewards/chosen": -0.03414917, "rewards/rejected": -0.9864502, "rewards/accuracies": 0.75, "rewards/margins": 0.95214844, "logps/rejected": -9.86254883, "logps/chosen": -0.3416748, "logits/rejected": -0.28808594, "logits/chosen": -0.63671875, "nll_loss": 0.34106445, "log_odds_ratio": -0.27442932, "log_odds_chosen": 10.42578125, "epoch": 0.2412178, "global_step/max_steps": "103/427", "percentage": "24.12%", "elapsed_time": "7h 6m 5s", "remaining_time": "22h 20m 19s"}
-{"loss": 1.25521851, "grad_norm": 3.5418601, "learning_rate": 3.827e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004042, "rewards/chosen": -0.04330444, "rewards/rejected": -0.55703735, "rewards/accuracies": 0.5, "rewards/margins": 0.5145874, "logps/rejected": -5.56835938, "logps/chosen": -0.43310547, "logits/rejected": -0.22848511, "logits/chosen": -0.88183594, "nll_loss": 0.43286133, "log_odds_ratio": -0.65820312, "log_odds_chosen": 5.546875, "epoch": 0.24355972, "global_step/max_steps": "104/427", "percentage": "24.36%", "elapsed_time": "7h 8m 11s", "remaining_time": "22h 9m 50s"}
-{"loss": 0.65936279, "grad_norm": 0.67148685, "learning_rate": 3.815e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004057, "rewards/chosen": -0.03991699, "rewards/rejected": -0.28326416, "rewards/accuracies": 0.75, "rewards/margins": 0.24273682, "logps/rejected": -2.82958984, "logps/chosen": -0.39892578, "logits/rejected": -0.15673828, "logits/chosen": -0.4621582, "nll_loss": 0.39941406, "log_odds_ratio": -0.3789978, "log_odds_chosen": 3.07617188, "epoch": 0.24590164, "global_step/max_steps": "105/427", "percentage": "24.59%", "elapsed_time": "7h 10m 47s", "remaining_time": "22h 1m 4s"}
-{"loss": 0.42590332, "grad_norm": 0.12371969, "learning_rate": 3.803e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00407, "rewards/chosen": -0.03234863, "rewards/rejected": -0.39306641, "rewards/accuracies": 0.25, "rewards/margins": 0.3604126, "logps/rejected": -3.93066406, "logps/chosen": -0.32373047, "logits/rejected": -0.31933594, "logits/chosen": -0.62695312, "nll_loss": 0.32275391, "log_odds_ratio": -0.62207031, "log_odds_chosen": 3.74853516, "epoch": 0.24824356, "global_step/max_steps": "106/427", "percentage": "24.82%", "elapsed_time": "7h 13m 29s", "remaining_time": "21h 52m 46s"}
-{"loss": 0.44558716, "grad_norm": 0.10647809, "learning_rate": 3.791e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004089, "rewards/chosen": -0.03063965, "rewards/rejected": -0.39718628, "rewards/accuracies": 0.5, "rewards/margins": 0.36734009, "logps/rejected": -3.97167969, "logps/chosen": -0.30615234, "logits/rejected": -0.2545166, "logits/chosen": -0.70849609, "nll_loss": 0.30688477, "log_odds_ratio": -0.5859375, "log_odds_chosen": 4.04077148, "epoch": 0.25058548, "global_step/max_steps": "107/427", "percentage": "25.06%", "elapsed_time": "7h 15m 34s", "remaining_time": "21h 42m 38s"}
-{"loss": 0.43395996, "grad_norm": 0.13631389, "learning_rate": 3.78e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004101, "rewards/chosen": -0.02978516, "rewards/rejected": -0.25283813, "rewards/accuracies": 0.5, "rewards/margins": 0.22293091, "logps/rejected": -2.52832031, "logps/chosen": -0.29760742, "logits/rejected": -0.33789062, "logits/chosen": -0.72949219, "nll_loss": 0.29833984, "log_odds_ratio": -0.515625, "log_odds_chosen": 2.63964844, "epoch": 0.2529274, "global_step/max_steps": "108/427", "percentage": "25.29%", "elapsed_time": "7h 18m 21s", "remaining_time": "21h 34m 48s"}
-{"loss": 0.44366455, "grad_norm": 0.08787711, "learning_rate": 3.768e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004112, "rewards/chosen": -0.034729, "rewards/rejected": -0.47485352, "rewards/accuracies": 1.0, "rewards/margins": 0.44052124, "logps/rejected": -4.74121094, "logps/chosen": -0.34692383, "logits/rejected": -0.33544922, "logits/chosen": -0.70263672, "nll_loss": 0.34814453, "log_odds_ratio": -0.46875, "log_odds_chosen": 4.95800781, "epoch": 0.25526932, "global_step/max_steps": "109/427", "percentage": "25.53%", "elapsed_time": "7h 21m 14s", "remaining_time": "21h 27m 18s"}
-{"loss": 0.51599121, "grad_norm": 0.09063193, "learning_rate": 3.756e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004122, "rewards/chosen": -0.0513916, "rewards/rejected": -0.03421021, "rewards/accuracies": 0.25, "rewards/margins": -0.01721191, "logps/rejected": -0.34228516, "logps/chosen": -0.51464844, "logits/rejected": -0.37039185, "logits/chosen": -1.02636719, "nll_loss": 0.51513672, "log_odds_ratio": -1.01660156, "log_odds_chosen": -0.50292969, "epoch": 0.25761124, "global_step/max_steps": "110/427", "percentage": "25.76%", "elapsed_time": "7h 24m 11s", "remaining_time": "21h 20m 3s"}
-{"eval_loss": 0.48724335, "eval_runtime": 650.0426, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04320828, "eval_rewards/rejected": -0.10966751, "eval_rewards/accuracies": 0.43396226, "eval_rewards/margins": 0.06655596, "eval_logps/rejected": -1.09695601, "eval_logps/chosen": -0.432046, "eval_logits/rejected": -0.27302983, "eval_logits/chosen": -0.78918225, "eval_nll_loss": 0.43193543, "eval_log_odds_ratio": -0.72799969, "eval_log_odds_chosen": 0.66785818, "epoch": 0.25761124, "global_step/max_steps": "110/427", "percentage": "25.76%", "elapsed_time": "7h 35m 1s", "remaining_time": "21h 51m 17s"}
-{"loss": 0.42123413, "grad_norm": 0.60424435, "learning_rate": 3.744e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004014, "rewards/chosen": -0.0300293, "rewards/rejected": -0.25332642, "rewards/accuracies": 0.75, "rewards/margins": 0.22338867, "logps/rejected": -2.53198242, "logps/chosen": -0.30029297, "logits/rejected": -0.51123047, "logits/chosen": -0.25390625, "nll_loss": 0.30151367, "log_odds_ratio": -0.41845703, "log_odds_chosen": 2.87353516, "epoch": 0.25995316, "global_step/max_steps": "111/427", "percentage": "26.00%", "elapsed_time": "7h 40m 14s", "remaining_time": "21h 50m 15s"}
-{"loss": 0.47473145, "grad_norm": 0.15754278, "learning_rate": 3.732e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004028, "rewards/chosen": -0.03961182, "rewards/rejected": -0.03607178, "rewards/accuracies": 0.25, "rewards/margins": -0.00354004, "logps/rejected": -0.36083984, "logps/chosen": -0.39648438, "logits/rejected": -0.5078125, "logits/chosen": -0.66503906, "nll_loss": 0.39697266, "log_odds_ratio": -0.75195312, "log_odds_chosen": -0.11181641, "epoch": 0.26229508, "global_step/max_steps": "112/427", "percentage": "26.23%", "elapsed_time": "7h 42m 47s", "remaining_time": "21h 41m 36s"}
-{"loss": 0.47659302, "grad_norm": 0.13396645, "learning_rate": 3.72e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004018, "rewards/chosen": -0.03460693, "rewards/rejected": -0.15496826, "rewards/accuracies": 0.75, "rewards/margins": 0.12042236, "logps/rejected": -1.55029297, "logps/chosen": -0.34594727, "logits/rejected": -0.55859375, "logits/chosen": -0.67529297, "nll_loss": 0.34667969, "log_odds_ratio": -0.42089844, "log_odds_chosen": 1.74121094, "epoch": 0.264637, "global_step/max_steps": "113/427", "percentage": "26.46%", "elapsed_time": "7h 48m 6s", "remaining_time": "21h 40m 46s"}
-{"loss": 0.44924927, "grad_norm": 0.09582707, "learning_rate": 3.709e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004036, "rewards/chosen": -0.04492188, "rewards/rejected": -0.05999756, "rewards/accuracies": 0.5, "rewards/margins": 0.01507568, "logps/rejected": -0.60107422, "logps/chosen": -0.44921875, "logits/rejected": -0.41455078, "logits/chosen": -0.91748047, "nll_loss": 0.44873047, "log_odds_ratio": -0.56396484, "log_odds_chosen": 0.30712891, "epoch": 0.26697892, "global_step/max_steps": "114/427", "percentage": "26.70%", "elapsed_time": "7h 50m 8s", "remaining_time": "21h 30m 50s"}
-{"loss": 0.47998047, "grad_norm": 0.11556891, "learning_rate": 3.697e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004046, "rewards/chosen": -0.05279541, "rewards/rejected": -0.04354858, "rewards/accuracies": 0.5, "rewards/margins": -0.00921631, "logps/rejected": -0.43603516, "logps/chosen": -0.52783203, "logits/rejected": -0.34912109, "logits/chosen": -0.82617188, "nll_loss": 0.52783203, "log_odds_ratio": -0.90185547, "log_odds_chosen": -0.2890625, "epoch": 0.26932084, "global_step/max_steps": "115/427", "percentage": "26.93%", "elapsed_time": "7h 53m 5s", "remaining_time": "21h 23m 31s"}
-{"loss": 0.48114014, "grad_norm": 0.17166787, "learning_rate": 3.685e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004051, "rewards/chosen": -0.04104614, "rewards/rejected": -0.38989258, "rewards/accuracies": 1.0, "rewards/margins": 0.34976196, "logps/rejected": -3.89648438, "logps/chosen": -0.41040039, "logits/rejected": -0.33300781, "logits/chosen": -0.44555664, "nll_loss": 0.41088867, "log_odds_ratio": -0.2555542, "log_odds_chosen": 4.32519531, "epoch": 0.27166276, "global_step/max_steps": "116/427", "percentage": "27.17%", "elapsed_time": "7h 56m 37s", "remaining_time": "21h 17m 50s"}
-{"loss": 0.42752075, "grad_norm": 0.22139408, "learning_rate": 3.673e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004061, "rewards/chosen": -0.05288696, "rewards/rejected": -0.10882568, "rewards/accuracies": 0.5, "rewards/margins": 0.05581665, "logps/rejected": -1.08813477, "logps/chosen": -0.52905273, "logits/rejected": -0.61035156, "logits/chosen": -0.61767578, "nll_loss": 0.5324707, "log_odds_ratio": -0.56787109, "log_odds_chosen": 0.62158203, "epoch": 0.27400468, "global_step/max_steps": "117/427", "percentage": "27.40%", "elapsed_time": "7h 59m 38s", "remaining_time": "21h 10m 49s"}
-{"loss": 0.46188354, "grad_norm": 0.19503364, "learning_rate": 3.661e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004065, "rewards/chosen": -0.0479126, "rewards/rejected": -0.3059082, "rewards/accuracies": 0.75, "rewards/margins": 0.25744629, "logps/rejected": -3.05908203, "logps/chosen": -0.47949219, "logits/rejected": -0.41308594, "logits/chosen": -0.63134766, "nll_loss": 0.48046875, "log_odds_ratio": -0.62011719, "log_odds_chosen": 2.82421875, "epoch": 0.2763466, "global_step/max_steps": "118/427", "percentage": "27.63%", "elapsed_time": "8h 3m 9s", "remaining_time": "21h 5m 13s"}
-{"loss": 0.543396, "grad_norm": 2.62623763, "learning_rate": 3.649e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004075, "rewards/chosen": -0.0489502, "rewards/rejected": -0.06851196, "rewards/accuracies": 0.5, "rewards/margins": 0.01956177, "logps/rejected": -0.68408203, "logps/chosen": -0.48925781, "logits/rejected": -0.43164062, "logits/chosen": -0.74511719, "nll_loss": 0.48974609, "log_odds_ratio": -0.58398438, "log_odds_chosen": 0.39746094, "epoch": 0.27868852, "global_step/max_steps": "119/427", "percentage": "27.87%", "elapsed_time": "8h 6m 5s", "remaining_time": "20h 58m 7s"}
-{"loss": 0.46691895, "grad_norm": 0.10820606, "learning_rate": 3.637e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004084, "rewards/chosen": -0.04406738, "rewards/rejected": -0.03924561, "rewards/accuracies": 0.5, "rewards/margins": -0.00482178, "logps/rejected": -0.39208984, "logps/chosen": -0.44042969, "logits/rejected": -0.65820312, "logits/chosen": -0.76464844, "nll_loss": 0.43994141, "log_odds_ratio": -0.7421875, "log_odds_chosen": -0.07470703, "epoch": 0.28103044, "global_step/max_steps": "120/427", "percentage": "28.10%", "elapsed_time": "8h 9m 8s", "remaining_time": "20h 51m 23s"}
-{"eval_loss": 0.48007536, "eval_runtime": 650.3396, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.081, "eval_rewards/chosen": -0.04376797, "eval_rewards/rejected": -0.15469533, "eval_rewards/accuracies": 0.60377359, "eval_rewards/margins": 0.11083294, "eval_logps/rejected": -1.54976785, "eval_logps/chosen": -0.43759212, "eval_logits/rejected": -0.42554632, "eval_logits/chosen": -0.86903006, "eval_nll_loss": 0.43738943, "eval_log_odds_ratio": -0.59723246, "eval_log_odds_chosen": 1.29580629, "epoch": 0.28103044, "global_step/max_steps": "120/427", "percentage": "28.10%", "elapsed_time": "8h 19m 58s", "remaining_time": "21h 19m 7s"}
-{"loss": 0.3999939, "grad_norm": 0.10346206, "learning_rate": 3.626e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004005, "rewards/chosen": -0.03186035, "rewards/rejected": -0.03884888, "rewards/accuracies": 0.5, "rewards/margins": 0.00698853, "logps/rejected": -0.38818359, "logps/chosen": -0.31860352, "logits/rejected": -0.29418945, "logits/chosen": -1.00292969, "nll_loss": 0.31884766, "log_odds_ratio": -0.58789062, "log_odds_chosen": 0.25976562, "epoch": 0.28337237, "global_step/max_steps": "121/427", "percentage": "28.34%", "elapsed_time": "8h 22m 54s", "remaining_time": "21h 11m 48s"}
-{"loss": 0.44857788, "grad_norm": 0.09386979, "learning_rate": 3.614e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00401, "rewards/chosen": -0.04437256, "rewards/rejected": -0.04486084, "rewards/accuracies": 0.5, "rewards/margins": 0.00048828, "logps/rejected": -0.44824219, "logps/chosen": -0.44360352, "logits/rejected": -0.45214844, "logits/chosen": -0.63623047, "nll_loss": 0.44360352, "log_odds_ratio": -0.70019531, "log_odds_chosen": -0.00415039, "epoch": 0.28571429, "global_step/max_steps": "122/427", "percentage": "28.57%", "elapsed_time": "8h 26m 28s", "remaining_time": "21h 6m 10s"}
-{"loss": 0.4498291, "grad_norm": 0.14138363, "learning_rate": 3.602e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004008, "rewards/chosen": -0.027771, "rewards/rejected": -0.02502441, "rewards/accuracies": 0.5, "rewards/margins": -0.00274658, "logps/rejected": -0.25024414, "logps/chosen": -0.27783203, "logits/rejected": -0.69628906, "logits/chosen": -0.6015625, "nll_loss": 0.27807617, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.0390625, "epoch": 0.28805621, "global_step/max_steps": "123/427", "percentage": "28.81%", "elapsed_time": "8h 30m 51s", "remaining_time": "21h 2m 36s"}
-{"loss": 0.43347168, "grad_norm": 0.08886986, "learning_rate": 3.59e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00401, "rewards/chosen": -0.0401001, "rewards/rejected": -0.04653931, "rewards/accuracies": 0.75, "rewards/margins": 0.00643921, "logps/rejected": -0.46533203, "logps/chosen": -0.40136719, "logits/rejected": -0.4453125, "logits/chosen": -0.66259766, "nll_loss": 0.40283203, "log_odds_ratio": -0.62304688, "log_odds_chosen": 0.16748047, "epoch": 0.29039813, "global_step/max_steps": "124/427", "percentage": "29.04%", "elapsed_time": "8h 34m 43s", "remaining_time": "20h 57m 46s"}
-{"loss": 0.40817261, "grad_norm": 0.09384123, "learning_rate": 3.578e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004019, "rewards/chosen": -0.03942871, "rewards/rejected": -0.48062134, "rewards/accuracies": 0.5, "rewards/margins": 0.44186401, "logps/rejected": -4.81396484, "logps/chosen": -0.39453125, "logits/rejected": -0.54541016, "logits/chosen": -0.91503906, "nll_loss": 0.39404297, "log_odds_ratio": -0.66503906, "log_odds_chosen": 4.66503906, "epoch": 0.29274005, "global_step/max_steps": "125/427", "percentage": "29.27%", "elapsed_time": "8h 37m 48s", "remaining_time": "20h 51m 2s"}
-{"loss": 0.42950439, "grad_norm": 0.10191557, "learning_rate": 3.566e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004031, "rewards/chosen": -0.03897095, "rewards/rejected": -0.04968262, "rewards/accuracies": 0.75, "rewards/margins": 0.01071167, "logps/rejected": -0.49609375, "logps/chosen": -0.38964844, "logits/rejected": -0.43457031, "logits/chosen": -0.85302734, "nll_loss": 0.38964844, "log_odds_ratio": -0.60986328, "log_odds_chosen": 0.25976562, "epoch": 0.29508197, "global_step/max_steps": "126/427", "percentage": "29.51%", "elapsed_time": "8h 40m 20s", "remaining_time": "20h 43m 3s"}
-{"loss": 0.43511963, "grad_norm": 0.10411004, "learning_rate": 3.555e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004037, "rewards/chosen": -0.03588867, "rewards/rejected": -0.67657471, "rewards/accuracies": 0.5, "rewards/margins": 0.63922119, "logps/rejected": -6.76757812, "logps/chosen": -0.35888672, "logits/rejected": -0.42236328, "logits/chosen": -0.37451172, "nll_loss": 0.35888672, "log_odds_ratio": -0.50585938, "log_odds_chosen": 6.97949219, "epoch": 0.29742389, "global_step/max_steps": "127/427", "percentage": "29.74%", "elapsed_time": "8h 43m 46s", "remaining_time": "20h 37m 16s"}
-{"loss": 0.4284668, "grad_norm": 0.1177816, "learning_rate": 3.543e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004045, "rewards/chosen": -0.04516602, "rewards/rejected": -0.0355835, "rewards/accuracies": 0.5, "rewards/margins": -0.00958252, "logps/rejected": -0.35595703, "logps/chosen": -0.45166016, "logits/rejected": -0.55908203, "logits/chosen": -0.53735352, "nll_loss": 0.45361328, "log_odds_ratio": -0.8359375, "log_odds_chosen": -0.22412109, "epoch": 0.29976581, "global_step/max_steps": "128/427", "percentage": "29.98%", "elapsed_time": "8h 46m 46s", "remaining_time": "20h 30m 31s"}
-{"loss": 0.38464355, "grad_norm": 0.08552061, "learning_rate": 3.531e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004054, "rewards/chosen": -0.03210449, "rewards/rejected": -0.03662109, "rewards/accuracies": 0.25, "rewards/margins": 0.0045166, "logps/rejected": -0.36621094, "logps/chosen": -0.32128906, "logits/rejected": -0.44384766, "logits/chosen": -0.53759766, "nll_loss": 0.32128906, "log_odds_ratio": -0.64404297, "log_odds_chosen": 0.12158203, "epoch": 0.30210773, "global_step/max_steps": "129/427", "percentage": "30.21%", "elapsed_time": "8h 49m 44s", "remaining_time": "20h 23m 44s"}
-{"loss": 0.4916687, "grad_norm": 0.09926344, "learning_rate": 3.519e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004068, "rewards/chosen": -0.04681396, "rewards/rejected": -0.03482056, "rewards/accuracies": 0.25, "rewards/margins": -0.01196289, "logps/rejected": -0.34814453, "logps/chosen": -0.46777344, "logits/rejected": -0.33837891, "logits/chosen": -1.06689453, "nll_loss": 0.46777344, "log_odds_ratio": -0.93164062, "log_odds_chosen": -0.37451172, "epoch": 0.30444965, "global_step/max_steps": "130/427", "percentage": "30.44%", "elapsed_time": "8h 52m 2s", "remaining_time": "20h 15m 30s"}
-{"eval_loss": 0.47161952, "eval_runtime": 649.564, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04145093, "eval_rewards/rejected": -0.14668475, "eval_rewards/accuracies": 0.5471698, "eval_rewards/margins": 0.10533056, "eval_logps/rejected": -1.46471477, "eval_logps/chosen": -0.41468897, "eval_logits/rejected": -0.40649185, "eval_logits/chosen": -0.88119102, "eval_nll_loss": 0.41467056, "eval_log_odds_ratio": -0.64230174, "eval_log_odds_chosen": 1.17928219, "epoch": 0.30444965, "global_step/max_steps": "130/427", "percentage": "30.44%", "elapsed_time": "9h 2m 52s", "remaining_time": "20h 40m 14s"}
-{"loss": 0.50396729, "grad_norm": 0.10627215, "learning_rate": 3.507e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003988, "rewards/chosen": -0.0430603, "rewards/rejected": -0.04748535, "rewards/accuracies": 0.75, "rewards/margins": 0.00442505, "logps/rejected": -0.47412109, "logps/chosen": -0.43017578, "logits/rejected": -0.33032227, "logits/chosen": -1.17285156, "nll_loss": 0.43066406, "log_odds_ratio": -0.65917969, "log_odds_chosen": 0.10351562, "epoch": 0.30679157, "global_step/max_steps": "131/427", "percentage": "30.68%", "elapsed_time": "9h 6m 51s", "remaining_time": "20h 35m 38s"}
-{"loss": 0.41687012, "grad_norm": 0.11856392, "learning_rate": 3.495e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004002, "rewards/chosen": -0.03967285, "rewards/rejected": -0.41543579, "rewards/accuracies": 0.25, "rewards/margins": 0.37521362, "logps/rejected": -4.15087891, "logps/chosen": -0.39697266, "logits/rejected": -0.45166016, "logits/chosen": -0.67041016, "nll_loss": 0.39697266, "log_odds_ratio": -0.66113281, "log_odds_chosen": 3.87109375, "epoch": 0.30913349, "global_step/max_steps": "132/427", "percentage": "30.91%", "elapsed_time": "9h 9m 4s", "remaining_time": "20h 27m 6s"}
-{"loss": 0.43731689, "grad_norm": 0.10498311, "learning_rate": 3.483e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004018, "rewards/chosen": -0.03329468, "rewards/rejected": -0.04837036, "rewards/accuracies": 0.75, "rewards/margins": 0.01507568, "logps/rejected": -0.48388672, "logps/chosen": -0.33325195, "logits/rejected": -0.49316406, "logits/chosen": -0.68212891, "nll_loss": 0.33422852, "log_odds_ratio": -0.52294922, "log_odds_chosen": 0.42236328, "epoch": 0.31147541, "global_step/max_steps": "133/427", "percentage": "31.15%", "elapsed_time": "9h 11m 1s", "remaining_time": "20h 18m 3s"}
-{"loss": 0.47741699, "grad_norm": 0.10669703, "learning_rate": 3.472e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004026, "rewards/chosen": -0.03219604, "rewards/rejected": -0.04876709, "rewards/accuracies": 0.75, "rewards/margins": 0.01657104, "logps/rejected": -0.48779297, "logps/chosen": -0.32202148, "logits/rejected": -0.28149414, "logits/chosen": -0.79003906, "nll_loss": 0.32080078, "log_odds_ratio": -0.50341797, "log_odds_chosen": 0.45458984, "epoch": 0.31381733, "global_step/max_steps": "134/427", "percentage": "31.38%", "elapsed_time": "9h 14m 4s", "remaining_time": "20h 11m 30s"}
-{"loss": 0.47467041, "grad_norm": 0.09151974, "learning_rate": 3.46e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004035, "rewards/chosen": -0.04315186, "rewards/rejected": -0.07720947, "rewards/accuracies": 0.75, "rewards/margins": 0.03405762, "logps/rejected": -0.77172852, "logps/chosen": -0.43164062, "logits/rejected": -0.38818359, "logits/chosen": -0.91943359, "nll_loss": 0.43066406, "log_odds_ratio": -0.47167969, "log_odds_chosen": 0.63378906, "epoch": 0.31615925, "global_step/max_steps": "135/427", "percentage": "31.62%", "elapsed_time": "9h 17m 1s", "remaining_time": "20h 4m 49s"}
-{"loss": 0.45306396, "grad_norm": 0.08868064, "learning_rate": 3.448e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004045, "rewards/chosen": -0.04089355, "rewards/rejected": -0.05847168, "rewards/accuracies": 0.75, "rewards/margins": 0.01757812, "logps/rejected": -0.58496094, "logps/chosen": -0.40917969, "logits/rejected": -0.34960938, "logits/chosen": -0.83837891, "nll_loss": 0.41015625, "log_odds_ratio": -0.54492188, "log_odds_chosen": 0.37792969, "epoch": 0.31850117, "global_step/max_steps": "136/427", "percentage": "31.85%", "elapsed_time": "9h 19m 48s", "remaining_time": "19h 57m 48s"}
-{"loss": 0.4743042, "grad_norm": 0.10987802, "learning_rate": 3.436e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004044, "rewards/chosen": -0.04318237, "rewards/rejected": -0.06707764, "rewards/accuracies": 0.75, "rewards/margins": 0.02389526, "logps/rejected": -0.66992188, "logps/chosen": -0.43139648, "logits/rejected": -0.37939453, "logits/chosen": -0.73583984, "nll_loss": 0.4309082, "log_odds_ratio": -0.5703125, "log_odds_chosen": 0.41699219, "epoch": 0.32084309, "global_step/max_steps": "137/427", "percentage": "32.08%", "elapsed_time": "9h 24m 1s", "remaining_time": "19h 53m 54s"}
-{"loss": 0.44589233, "grad_norm": 0.11007581, "learning_rate": 3.424e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004041, "rewards/chosen": -0.04510498, "rewards/rejected": -0.08435059, "rewards/accuracies": 1.0, "rewards/margins": 0.03924561, "logps/rejected": -0.84375, "logps/chosen": -0.45117188, "logits/rejected": -0.38500977, "logits/chosen": -0.96386719, "nll_loss": 0.45166016, "log_odds_ratio": -0.40673828, "log_odds_chosen": 0.77490234, "epoch": 0.32318501, "global_step/max_steps": "138/427", "percentage": "32.32%", "elapsed_time": "9h 28m 33s", "remaining_time": "19h 50m 41s"}
-{"loss": 0.4786377, "grad_norm": 0.0880352, "learning_rate": 3.412e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004046, "rewards/chosen": -0.03485107, "rewards/rejected": -0.27191162, "rewards/accuracies": 0.75, "rewards/margins": 0.2366333, "logps/rejected": -2.72070312, "logps/chosen": -0.34814453, "logits/rejected": -0.33129883, "logits/chosen": -0.56591797, "nll_loss": 0.34790039, "log_odds_ratio": -0.35011292, "log_odds_chosen": 3.12890625, "epoch": 0.32552693, "global_step/max_steps": "139/427", "percentage": "32.55%", "elapsed_time": "9h 32m 2s", "remaining_time": "19h 45m 14s"}
-{"loss": 0.42858887, "grad_norm": 0.14312401, "learning_rate": 3.4e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004058, "rewards/chosen": -0.03723145, "rewards/rejected": -0.08087158, "rewards/accuracies": 0.75, "rewards/margins": 0.0435791, "logps/rejected": -0.80957031, "logps/chosen": -0.37255859, "logits/rejected": -0.28607178, "logits/chosen": -0.56787109, "nll_loss": 0.37255859, "log_odds_ratio": -0.44506836, "log_odds_chosen": 0.81738281, "epoch": 0.32786885, "global_step/max_steps": "140/427", "percentage": "32.79%", "elapsed_time": "9h 34m 27s", "remaining_time": "19h 37m 38s"}
-{"eval_loss": 0.46778965, "eval_runtime": 649.5435, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04254496, "eval_rewards/rejected": -0.23106067, "eval_rewards/accuracies": 0.6981132, "eval_rewards/margins": 0.18846275, "eval_logps/rejected": -2.31296062, "eval_logps/chosen": -0.42576283, "eval_logits/rejected": -0.31001714, "eval_logits/chosen": -0.84275502, "eval_nll_loss": 0.42568913, "eval_log_odds_ratio": -0.44461232, "eval_log_odds_chosen": 2.32117844, "epoch": 0.32786885, "global_step/max_steps": "140/427", "percentage": "32.79%", "elapsed_time": "9h 45m 16s", "remaining_time": "19h 59m 49s"}
-{"loss": 0.47134399, "grad_norm": 0.09910604, "learning_rate": 3.389e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003978, "rewards/chosen": -0.03421021, "rewards/rejected": -0.11875916, "rewards/accuracies": 0.75, "rewards/margins": 0.08465576, "logps/rejected": -1.18701172, "logps/chosen": -0.34204102, "logits/rejected": -0.40197754, "logits/chosen": -0.74609375, "nll_loss": 0.34179688, "log_odds_ratio": -0.51373291, "log_odds_chosen": 1.18334961, "epoch": 0.33021077, "global_step/max_steps": "141/427", "percentage": "33.02%", "elapsed_time": "9h 50m 9s", "remaining_time": "19h 57m 4s"}
-{"loss": 0.44058228, "grad_norm": 0.09278602, "learning_rate": 3.377e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003981, "rewards/chosen": -0.04788208, "rewards/rejected": -0.10705566, "rewards/accuracies": 0.5, "rewards/margins": 0.05908203, "logps/rejected": -1.0703125, "logps/chosen": -0.47851562, "logits/rejected": -0.53686523, "logits/chosen": -1.09960938, "nll_loss": 0.47900391, "log_odds_ratio": -0.51629639, "log_odds_chosen": 0.91894531, "epoch": 0.33255269, "global_step/max_steps": "142/427", "percentage": "33.26%", "elapsed_time": "9h 53m 51s", "remaining_time": "19h 51m 53s"}
-{"loss": 0.44866943, "grad_norm": 0.10309532, "learning_rate": 3.365e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003986, "rewards/chosen": -0.04376221, "rewards/rejected": -0.3314209, "rewards/accuracies": 0.75, "rewards/margins": 0.28765869, "logps/rejected": -3.31689453, "logps/chosen": -0.4375, "logits/rejected": -0.30639648, "logits/chosen": -0.83032227, "nll_loss": 0.4375, "log_odds_ratio": -0.27932739, "log_odds_chosen": 3.61914062, "epoch": 0.33489461, "global_step/max_steps": "143/427", "percentage": "33.49%", "elapsed_time": "9h 57m 19s", "remaining_time": "19h 46m 18s"}
-{"loss": 0.42626953, "grad_norm": 0.08816983, "learning_rate": 3.353e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003999, "rewards/chosen": -0.04168701, "rewards/rejected": -0.46606445, "rewards/accuracies": 1.0, "rewards/margins": 0.42456055, "logps/rejected": -4.65576172, "logps/chosen": -0.41699219, "logits/rejected": -0.12660217, "logits/chosen": -0.90576172, "nll_loss": 0.41748047, "log_odds_ratio": -0.15431213, "log_odds_chosen": 5.02001953, "epoch": 0.33723653, "global_step/max_steps": "144/427", "percentage": "33.72%", "elapsed_time": "9h 59m 29s", "remaining_time": "19h 38m 10s"}
-{"loss": 0.72900391, "grad_norm": 0.8846494, "learning_rate": 3.341e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004012, "rewards/chosen": -0.0458374, "rewards/rejected": -0.18359375, "rewards/accuracies": 0.5, "rewards/margins": 0.13793945, "logps/rejected": -1.83203125, "logps/chosen": -0.45849609, "logits/rejected": -0.38061523, "logits/chosen": -0.68237305, "nll_loss": 0.45849609, "log_odds_ratio": -0.78320312, "log_odds_chosen": 1.34521484, "epoch": 0.33957845, "global_step/max_steps": "145/427", "percentage": "33.96%", "elapsed_time": "10h 1m 47s", "remaining_time": "19h 30m 23s"}
-{"loss": 0.43817139, "grad_norm": 0.14548092, "learning_rate": 3.329e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004026, "rewards/chosen": -0.03140259, "rewards/rejected": -0.06945801, "rewards/accuracies": 1.0, "rewards/margins": 0.03805542, "logps/rejected": -0.69384766, "logps/chosen": -0.31396484, "logits/rejected": -0.24462891, "logits/chosen": -0.93530273, "nll_loss": 0.31445312, "log_odds_ratio": -0.39233398, "log_odds_chosen": 0.89501953, "epoch": 0.34192037, "global_step/max_steps": "146/427", "percentage": "34.19%", "elapsed_time": "10h 3m 47s", "remaining_time": "19h 22m 6s"}
-{"loss": 0.44674683, "grad_norm": 0.10295217, "learning_rate": 3.318e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004028, "rewards/chosen": -0.04327393, "rewards/rejected": -0.05230713, "rewards/accuracies": 1.0, "rewards/margins": 0.0090332, "logps/rejected": -0.52294922, "logps/chosen": -0.43310547, "logits/rejected": -0.28613281, "logits/chosen": -1.01757812, "nll_loss": 0.43310547, "log_odds_ratio": -0.578125, "log_odds_chosen": 0.25488281, "epoch": 0.3442623, "global_step/max_steps": "147/427", "percentage": "34.43%", "elapsed_time": "10h 7m 40s", "remaining_time": "19h 17m 29s"}
-{"loss": 0.43991089, "grad_norm": 0.09682243, "learning_rate": 3.306e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004035, "rewards/chosen": -0.03491211, "rewards/rejected": -0.03268433, "rewards/accuracies": 0.5, "rewards/margins": -0.00222778, "logps/rejected": -0.32714844, "logps/chosen": -0.34912109, "logits/rejected": -0.15167236, "logits/chosen": -0.96386719, "nll_loss": 0.34912109, "log_odds_ratio": -0.71582031, "log_odds_chosen": -0.02294922, "epoch": 0.34660422, "global_step/max_steps": "148/427", "percentage": "34.66%", "elapsed_time": "10h 10m 44s", "remaining_time": "19h 11m 19s"}
-{"loss": 0.47558594, "grad_norm": 0.10571572, "learning_rate": 3.294e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004039, "rewards/chosen": -0.03918457, "rewards/rejected": -0.21398926, "rewards/accuracies": 0.25, "rewards/margins": 0.17510986, "logps/rejected": -2.13623047, "logps/chosen": -0.39160156, "logits/rejected": -0.4453125, "logits/chosen": -0.48193359, "nll_loss": 0.39160156, "log_odds_ratio": -0.70800781, "log_odds_chosen": 1.984375, "epoch": 0.34894614, "global_step/max_steps": "149/427", "percentage": "34.89%", "elapsed_time": "10h 14m 10s", "remaining_time": "19h 5m 55s"}
-{"loss": 0.40313721, "grad_norm": 0.11789128, "learning_rate": 3.282e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004048, "rewards/chosen": -0.02890015, "rewards/rejected": -0.21908569, "rewards/accuracies": 1.0, "rewards/margins": 0.18978882, "logps/rejected": -2.19287109, "logps/chosen": -0.2890625, "logits/rejected": -0.1060791, "logits/chosen": -0.59295654, "nll_loss": 0.28930664, "log_odds_ratio": -0.47265625, "log_odds_chosen": 2.34716797, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 16m 56s", "remaining_time": "18h 59m 17s"}
-{"eval_loss": 0.47329032, "eval_runtime": 649.4744, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04066784, "eval_rewards/rejected": -0.09058308, "eval_rewards/accuracies": 0.56603771, "eval_rewards/margins": 0.04997282, "eval_logps/rejected": -0.90518129, "eval_logps/chosen": -0.40683961, "eval_logits/rejected": -0.22765307, "eval_logits/chosen": -0.72029084, "eval_nll_loss": 0.40660009, "eval_log_odds_ratio": -0.68672609, "eval_log_odds_chosen": 0.5650059, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 27m 46s", "remaining_time": "19h 19m 16s"}
-{"loss": 0.43579102, "grad_norm": 0.09132672, "learning_rate": 3.27e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003978, "rewards/chosen": -0.03515625, "rewards/rejected": -0.04406738, "rewards/accuracies": 0.75, "rewards/margins": 0.00891113, "logps/rejected": -0.44091797, "logps/chosen": -0.3515625, "logits/rejected": -0.2612915, "logits/chosen": -0.67236328, "nll_loss": 0.3515625, "log_odds_ratio": -0.57910156, "log_odds_chosen": 0.27099609, "epoch": 0.35362998, "global_step/max_steps": "151/427", "percentage": "35.36%", "elapsed_time": "10h 32m 6s", "remaining_time": "19h 15m 22s"}
-{"loss": 0.47277832, "grad_norm": 0.08914906, "learning_rate": 3.258e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003983, "rewards/chosen": -0.03771973, "rewards/rejected": -0.04318237, "rewards/accuracies": 0.75, "rewards/margins": 0.00546265, "logps/rejected": -0.43164062, "logps/chosen": -0.37695312, "logits/rejected": -0.44018555, "logits/chosen": -0.74121094, "nll_loss": 0.37695312, "log_odds_ratio": -0.70117188, "log_odds_chosen": 0.07958984, "epoch": 0.3559719, "global_step/max_steps": "152/427", "percentage": "35.60%", "elapsed_time": "10h 35m 28s", "remaining_time": "19h 9m 43s"}
-{"loss": 0.48269653, "grad_norm": 0.10411897, "learning_rate": 3.246e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00398, "rewards/chosen": -0.03778076, "rewards/rejected": -0.0395813, "rewards/accuracies": 0.75, "rewards/margins": 0.00180054, "logps/rejected": -0.39550781, "logps/chosen": -0.37744141, "logits/rejected": -0.28955078, "logits/chosen": -0.57446289, "nll_loss": 0.37646484, "log_odds_ratio": -0.65625, "log_odds_chosen": 0.08251953, "epoch": 0.35831382, "global_step/max_steps": "153/427", "percentage": "35.83%", "elapsed_time": "10h 40m 6s", "remaining_time": "19h 6m 20s"}
-{"loss": 0.46362305, "grad_norm": 0.09759329, "learning_rate": 3.235e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003981, "rewards/chosen": -0.04348755, "rewards/rejected": -0.24304199, "rewards/accuracies": 0.5, "rewards/margins": 0.19989014, "logps/rejected": -2.43212891, "logps/chosen": -0.43554688, "logits/rejected": -0.32885742, "logits/chosen": -0.30065918, "nll_loss": 0.43457031, "log_odds_ratio": -0.56646729, "log_odds_chosen": 2.40966797, "epoch": 0.36065574, "global_step/max_steps": "154/427", "percentage": "36.07%", "elapsed_time": "10h 44m 5s", "remaining_time": "19h 1m 48s"}
-{"loss": 0.44882202, "grad_norm": 0.08997617, "learning_rate": 3.223e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003989, "rewards/chosen": -0.03393555, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.75, "rewards/margins": 0.00390625, "logps/rejected": -0.37817383, "logps/chosen": -0.33959961, "logits/rejected": -0.28662109, "logits/chosen": -0.33853149, "nll_loss": 0.33911133, "log_odds_ratio": -0.64746094, "log_odds_chosen": 0.10888672, "epoch": 0.36299766, "global_step/max_steps": "155/427", "percentage": "36.30%", "elapsed_time": "10h 46m 58s", "remaining_time": "18h 55m 20s"}
-{"loss": 0.41662598, "grad_norm": 0.09527715, "learning_rate": 3.211e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003996, "rewards/chosen": -0.03436279, "rewards/rejected": -0.04223633, "rewards/accuracies": 0.5, "rewards/margins": 0.00787354, "logps/rejected": -0.42260742, "logps/chosen": -0.34326172, "logits/rejected": -0.17456055, "logits/chosen": -0.86474609, "nll_loss": 0.34423828, "log_odds_ratio": -0.61132812, "log_odds_chosen": 0.22485352, "epoch": 0.36533958, "global_step/max_steps": "156/427", "percentage": "36.53%", "elapsed_time": "10h 50m 7s", "remaining_time": "18h 49m 22s"}
-{"loss": 0.44555664, "grad_norm": 0.08875868, "learning_rate": 3.199e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004009, "rewards/chosen": -0.03744507, "rewards/rejected": -0.04598999, "rewards/accuracies": 0.75, "rewards/margins": 0.00854492, "logps/rejected": -0.4597168, "logps/chosen": -0.37451172, "logits/rejected": -0.14245605, "logits/chosen": -0.82910156, "nll_loss": 0.37451172, "log_odds_ratio": -0.58691406, "log_odds_chosen": 0.23461914, "epoch": 0.3676815, "global_step/max_steps": "157/427", "percentage": "36.77%", "elapsed_time": "10h 52m 3s", "remaining_time": "18h 41m 22s"}
-{"loss": 0.42068481, "grad_norm": 0.08708041, "learning_rate": 3.187e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00402, "rewards/chosen": -0.05273438, "rewards/rejected": -0.06536865, "rewards/accuracies": 0.75, "rewards/margins": 0.01263428, "logps/rejected": -0.65332031, "logps/chosen": -0.52685547, "logits/rejected": -0.18002319, "logits/chosen": -1.01953125, "nll_loss": 0.52880859, "log_odds_ratio": -0.57324219, "log_odds_chosen": 0.28076172, "epoch": 0.37002342, "global_step/max_steps": "158/427", "percentage": "37.00%", "elapsed_time": "10h 54m 26s", "remaining_time": "18h 34m 12s"}
-{"loss": 0.53839111, "grad_norm": 0.12544316, "learning_rate": 3.175e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004023, "rewards/chosen": -0.07232666, "rewards/rejected": -0.04547119, "rewards/accuracies": 0.75, "rewards/margins": -0.0267334, "logps/rejected": -0.45458984, "logps/chosen": -0.72314453, "logits/rejected": -0.15310669, "logits/chosen": -1.04785156, "nll_loss": 0.72558594, "log_odds_ratio": -1.03613281, "log_odds_chosen": -0.40722656, "epoch": 0.37236534, "global_step/max_steps": "159/427", "percentage": "37.24%", "elapsed_time": "10h 58m 8s", "remaining_time": "18h 29m 19s"}
-{"loss": 0.45611572, "grad_norm": 0.09365269, "learning_rate": 3.164e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00403, "rewards/chosen": -0.0324707, "rewards/rejected": -0.02557373, "rewards/accuracies": 0.0, "rewards/margins": -0.00689697, "logps/rejected": -0.25561523, "logps/chosen": -0.32446289, "logits/rejected": -0.53125, "logits/chosen": -0.45849609, "nll_loss": 0.32470703, "log_odds_ratio": -0.84277344, "log_odds_chosen": -0.27441406, "epoch": 0.37470726, "global_step/max_steps": "160/427", "percentage": "37.47%", "elapsed_time": "11h 1m 5s", "remaining_time": "18h 23m 12s"}
-{"eval_loss": 0.46463084, "eval_runtime": 649.616, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.0413565, "eval_rewards/rejected": -0.12970085, "eval_rewards/accuracies": 0.60377359, "eval_rewards/margins": 0.08834436, "eval_logps/rejected": -1.29744625, "eval_logps/chosen": -0.41352814, "eval_logits/rejected": -0.28135133, "eval_logits/chosen": -0.75331199, "eval_nll_loss": 0.41358343, "eval_log_odds_ratio": -0.58239979, "eval_log_odds_chosen": 1.09166789, "epoch": 0.37470726, "global_step/max_steps": "160/427", "percentage": "37.47%", "elapsed_time": "11h 11m 55s", "remaining_time": "18h 41m 16s"}
-{"loss": 0.46447754, "grad_norm": 0.08780798, "learning_rate": 3.152e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003955, "rewards/chosen": -0.04327393, "rewards/rejected": -0.03875732, "rewards/accuracies": 0.5, "rewards/margins": -0.0045166, "logps/rejected": -0.38745117, "logps/chosen": -0.43261719, "logits/rejected": -0.60791016, "logits/chosen": -0.59570312, "nll_loss": 0.43212891, "log_odds_ratio": -0.84228516, "log_odds_chosen": -0.18798828, "epoch": 0.37704918, "global_step/max_steps": "161/427", "percentage": "37.70%", "elapsed_time": "11h 17m 49s", "remaining_time": "18h 39m 53s"}
-{"loss": 0.45516968, "grad_norm": 0.09269176, "learning_rate": 3.14e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003961, "rewards/chosen": -0.03967285, "rewards/rejected": -0.64620972, "rewards/accuracies": 0.75, "rewards/margins": 0.60678101, "logps/rejected": -6.47705078, "logps/chosen": -0.39648438, "logits/rejected": -0.44628906, "logits/chosen": -0.87988281, "nll_loss": 0.39697266, "log_odds_ratio": -0.34814453, "log_odds_chosen": 6.62597656, "epoch": 0.3793911, "global_step/max_steps": "162/427", "percentage": "37.94%", "elapsed_time": "11h 21m 7s", "remaining_time": "18h 34m 10s"}
-{"loss": 0.427948, "grad_norm": 0.07641727, "learning_rate": 3.128e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003968, "rewards/chosen": -0.02523804, "rewards/rejected": -0.20239258, "rewards/accuracies": 0.75, "rewards/margins": 0.17672729, "logps/rejected": -2.02050781, "logps/chosen": -0.25244141, "logits/rejected": -0.15368652, "logits/chosen": -0.63916016, "nll_loss": 0.25244141, "log_odds_ratio": -0.32617188, "log_odds_chosen": 2.53515625, "epoch": 0.38173302, "global_step/max_steps": "163/427", "percentage": "38.17%", "elapsed_time": "11h 24m 5s", "remaining_time": "18h 27m 58s"}
-{"loss": 0.41162109, "grad_norm": 0.07814033, "learning_rate": 3.116e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003979, "rewards/chosen": -0.03631592, "rewards/rejected": -0.05712891, "rewards/accuracies": 0.75, "rewards/margins": 0.02081299, "logps/rejected": -0.57080078, "logps/chosen": -0.36352539, "logits/rejected": -0.2756424, "logits/chosen": -0.84960938, "nll_loss": 0.36352539, "log_odds_ratio": -0.50732422, "log_odds_chosen": 0.47094727, "epoch": 0.38407494, "global_step/max_steps": "164/427", "percentage": "38.41%", "elapsed_time": "11h 26m 17s", "remaining_time": "18h 20m 34s"}
-{"loss": 0.42019653, "grad_norm": 0.08304253, "learning_rate": 3.104e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003983, "rewards/chosen": -0.04974365, "rewards/rejected": -0.04663086, "rewards/accuracies": 0.5, "rewards/margins": -0.00311279, "logps/rejected": -0.46679688, "logps/chosen": -0.49731445, "logits/rejected": -0.28320312, "logits/chosen": -1.06054688, "nll_loss": 0.49853516, "log_odds_ratio": -0.72607422, "log_odds_chosen": 0.046875, "epoch": 0.38641686, "global_step/max_steps": "165/427", "percentage": "38.64%", "elapsed_time": "11h 29m 53s", "remaining_time": "18h 15m 28s"}
-{"loss": 0.45248413, "grad_norm": 0.25102618, "learning_rate": 3.092e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003985, "rewards/chosen": -0.03695679, "rewards/rejected": -0.05917358, "rewards/accuracies": 1.0, "rewards/margins": 0.0222168, "logps/rejected": -0.59130859, "logps/chosen": -0.36962891, "logits/rejected": -0.41699219, "logits/chosen": -0.70556641, "nll_loss": 0.36938477, "log_odds_ratio": -0.50170898, "log_odds_chosen": 0.51025391, "epoch": 0.38875878, "global_step/max_steps": "166/427", "percentage": "38.88%", "elapsed_time": "11h 33m 41s", "remaining_time": "18h 10m 40s"}
-{"loss": 0.5090332, "grad_norm": 0.10502508, "learning_rate": 3.081e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00399, "rewards/chosen": -0.04241943, "rewards/rejected": -0.04272461, "rewards/accuracies": 0.5, "rewards/margins": 0.00030518, "logps/rejected": -0.42773438, "logps/chosen": -0.42480469, "logits/rejected": -0.32324219, "logits/chosen": -0.65576172, "nll_loss": 0.42480469, "log_odds_ratio": -0.703125, "log_odds_chosen": -0.00390625, "epoch": 0.3911007, "global_step/max_steps": "167/427", "percentage": "39.11%", "elapsed_time": "11h 37m 1s", "remaining_time": "18h 5m 10s"}
-{"loss": 0.45736694, "grad_norm": 0.0924931, "learning_rate": 3.069e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00399, "rewards/chosen": -0.05560303, "rewards/rejected": -0.05032349, "rewards/accuracies": 0.5, "rewards/margins": -0.00524902, "logps/rejected": -0.50292969, "logps/chosen": -0.55517578, "logits/rejected": -0.44628906, "logits/chosen": -1.12988281, "nll_loss": 0.55566406, "log_odds_ratio": -0.97314453, "log_odds_chosen": -0.33496094, "epoch": 0.39344262, "global_step/max_steps": "168/427", "percentage": "39.34%", "elapsed_time": "11h 41m 4s", "remaining_time": "18h 0m 50s"}
-{"loss": 0.43942261, "grad_norm": 0.0852342, "learning_rate": 3.057e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003999, "rewards/chosen": -0.03579712, "rewards/rejected": -0.50466919, "rewards/accuracies": 1.0, "rewards/margins": 0.46917725, "logps/rejected": -5.0390625, "logps/chosen": -0.35791016, "logits/rejected": -0.32128906, "logits/chosen": -0.61230469, "nll_loss": 0.35791016, "log_odds_ratio": -0.34716797, "log_odds_chosen": 5.30078125, "epoch": 0.39578454, "global_step/max_steps": "169/427", "percentage": "39.58%", "elapsed_time": "11h 43m 40s", "remaining_time": "17h 54m 14s"}
-{"loss": 0.43887329, "grad_norm": 0.09104977, "learning_rate": 3.045e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003998, "rewards/chosen": -0.03686523, "rewards/rejected": -0.05151367, "rewards/accuracies": 0.5, "rewards/margins": 0.01464844, "logps/rejected": -0.51538086, "logps/chosen": -0.3684082, "logits/rejected": -0.26806641, "logits/chosen": -0.8203125, "nll_loss": 0.36889648, "log_odds_ratio": -0.66357422, "log_odds_chosen": 0.22485352, "epoch": 0.39812646, "global_step/max_steps": "170/427", "percentage": "39.81%", "elapsed_time": "11h 48m 3s", "remaining_time": "17h 50m 24s"}
-{"eval_loss": 0.46020046, "eval_runtime": 649.8011, "eval_samples_per_second": 0.649, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04084519, "eval_rewards/rejected": -0.10577969, "eval_rewards/accuracies": 0.6981132, "eval_rewards/margins": 0.06498286, "eval_logps/rejected": -1.05807781, "eval_logps/chosen": -0.40862691, "eval_logits/rejected": -0.30032292, "eval_logits/chosen": -0.79020488, "eval_nll_loss": 0.4086822, "eval_log_odds_ratio": -0.49878392, "eval_log_odds_chosen": 0.9986549, "epoch": 0.39812646, "global_step/max_steps": "170/427", "percentage": "39.81%", "elapsed_time": "11h 58m 52s", "remaining_time": "18h 6m 46s"}
+{"loss": 0.43908691, "grad_norm": 0.03914815, "learning_rate": 1.25e-05, "memory(GiB)": 79.19, "train_speed(iter/s)": 0.006721, "rewards/chosen": -0.03198242, "rewards/rejected": -0.01950073, "rewards/accuracies": 0.0, "rewards/margins": -0.01248169, "logps/rejected": -0.19482422, "logps/chosen": -0.31982422, "logits/rejected": -0.46386719, "logits/chosen": -0.45214844, "nll_loss": 0.31933594, "log_odds_ratio": -1.01171875, "log_odds_chosen": -0.5546875, "epoch": 0.03149606, "global_step/max_steps": "1/31", "percentage": "3.23%", "elapsed_time": "2m 17s", "remaining_time": "1h 8m 49s"}
+{"loss": 0.36499023, "grad_norm": 0.03412086, "learning_rate": 2.5e-05, "memory(GiB)": 103.54, "train_speed(iter/s)": 0.006275, "rewards/chosen": -0.02926636, "rewards/rejected": -0.02011108, "rewards/accuracies": 0.0, "rewards/margins": -0.00915527, "logps/rejected": -0.20092773, "logps/chosen": -0.29296875, "logits/rejected": -0.41699219, "logits/chosen": -0.42529297, "nll_loss": 0.29296875, "log_odds_ratio": -0.9375, "log_odds_chosen": -0.42724609, "epoch": 0.06299213, "global_step/max_steps": "2/31", "percentage": "6.45%", "elapsed_time": "5m 7s", "remaining_time": "1h 14m 20s"}
+{"loss": 0.36932373, "grad_norm": 0.03847667, "learning_rate": 3.75e-05, "memory(GiB)": 103.54, "train_speed(iter/s)": 0.006046, "rewards/chosen": -0.02734375, "rewards/rejected": -0.02200317, "rewards/accuracies": 0.0, "rewards/margins": -0.00534058, "logps/rejected": -0.2199707, "logps/chosen": -0.2734375, "logits/rejected": -0.50439453, "logits/chosen": -0.49414062, "nll_loss": 0.27319336, "log_odds_ratio": -0.83203125, "log_odds_chosen": -0.2565918, "epoch": 0.09448819, "global_step/max_steps": "3/31", "percentage": "9.68%", "elapsed_time": "8m 5s", "remaining_time": "1h 15m 27s"}
+{"loss": 0.39916992, "grad_norm": 0.0379869, "learning_rate": 5e-05, "memory(GiB)": 103.54, "train_speed(iter/s)": 0.0054, "rewards/chosen": -0.03094482, "rewards/rejected": -0.02490234, "rewards/accuracies": 0.25, "rewards/margins": -0.00604248, "logps/rejected": -0.2487793, "logps/chosen": -0.30908203, "logits/rejected": -0.43139648, "logits/chosen": -0.41333008, "nll_loss": 0.30859375, "log_odds_ratio": -0.82617188, "log_odds_chosen": -0.24365234, "epoch": 0.12598425, "global_step/max_steps": "4/31", "percentage": "12.90%", "elapsed_time": "12m 9s", "remaining_time": "1h 22m 4s"}
+{"loss": 0.37365723, "grad_norm": 0.03705657, "learning_rate": 4.815e-05, "memory(GiB)": 103.54, "train_speed(iter/s)": 0.005193, "rewards/chosen": -0.0262146, "rewards/rejected": -0.01992798, "rewards/accuracies": 0.25, "rewards/margins": -0.00628662, "logps/rejected": -0.19921875, "logps/chosen": -0.26220703, "logits/rejected": -0.52246094, "logits/chosen": -0.50585938, "nll_loss": 0.26269531, "log_odds_ratio": -0.88964844, "log_odds_chosen": -0.34423828, "epoch": 0.15748031, "global_step/max_steps": "5/31", "percentage": "16.13%", "elapsed_time": "15m 51s", "remaining_time": "1h 22m 29s"}
+{"loss": 0.35726929, "grad_norm": 0.03255292, "learning_rate": 4.63e-05, "memory(GiB)": 103.54, "train_speed(iter/s)": 0.005075, "rewards/chosen": -0.02380371, "rewards/rejected": -0.01972961, "rewards/accuracies": 0.0, "rewards/margins": -0.0040741, "logps/rejected": -0.19750977, "logps/chosen": -0.23779297, "logits/rejected": -0.41064453, "logits/chosen": -0.3762207, "nll_loss": 0.23730469, "log_odds_ratio": -0.81542969, "log_odds_chosen": -0.22338867, "epoch": 0.18897638, "global_step/max_steps": "6/31", "percentage": "19.35%", "elapsed_time": "19m 31s", "remaining_time": "1h 21m 19s"}
+{"loss": 0.34829712, "grad_norm": 0.04036952, "learning_rate": 4.444e-05, "memory(GiB)": 128.83, "train_speed(iter/s)": 0.00486, "rewards/chosen": -0.02349854, "rewards/rejected": -0.02279663, "rewards/accuracies": 0.5, "rewards/margins": -0.0007019, "logps/rejected": -0.2277832, "logps/chosen": -0.23510742, "logits/rejected": -0.38134766, "logits/chosen": -0.35742188, "nll_loss": 0.23535156, "log_odds_ratio": -0.71875, "log_odds_chosen": -0.04443359, "epoch": 0.22047244, "global_step/max_steps": "7/31", "percentage": "22.58%", "elapsed_time": "23m 49s", "remaining_time": "1h 21m 39s"}
+{"loss": 0.37341309, "grad_norm": 0.05548503, "learning_rate": 4.259e-05, "memory(GiB)": 128.83, "train_speed(iter/s)": 0.005037, "rewards/chosen": -0.0295105, "rewards/rejected": -0.02029419, "rewards/accuracies": 0.0, "rewards/margins": -0.00921631, "logps/rejected": -0.20288086, "logps/chosen": -0.29492188, "logits/rejected": -0.54785156, "logits/chosen": -0.50439453, "nll_loss": 0.29541016, "log_odds_ratio": -0.95996094, "log_odds_chosen": -0.45556641, "epoch": 0.2519685, "global_step/max_steps": "8/31", "percentage": "25.81%", "elapsed_time": "26m 16s", "remaining_time": "1h 15m 33s"}
+{"loss": 0.36541748, "grad_norm": 0.10269362, "learning_rate": 4.074e-05, "memory(GiB)": 128.83, "train_speed(iter/s)": 0.005153, "rewards/chosen": -0.02709961, "rewards/rejected": -0.02340698, "rewards/accuracies": 0.0, "rewards/margins": -0.00369263, "logps/rejected": -0.23413086, "logps/chosen": -0.27099609, "logits/rejected": -0.52734375, "logits/chosen": -0.54296875, "nll_loss": 0.27124023, "log_odds_ratio": -0.78125, "log_odds_chosen": -0.16381836, "epoch": 0.28346457, "global_step/max_steps": "9/31", "percentage": "29.03%", "elapsed_time": "28m 55s", "remaining_time": "1h 10m 42s"}
+{"loss": 0.34951782, "grad_norm": 0.0436169, "learning_rate": 3.889e-05, "memory(GiB)": 133.45, "train_speed(iter/s)": 0.005292, "rewards/chosen": -0.02746582, "rewards/rejected": -0.02111816, "rewards/accuracies": 0.0, "rewards/margins": -0.00634766, "logps/rejected": -0.21118164, "logps/chosen": -0.2746582, "logits/rejected": -0.484375, "logits/chosen": -0.484375, "nll_loss": 0.27441406, "log_odds_ratio": -0.85058594, "log_odds_chosen": -0.29003906, "epoch": 0.31496063, "global_step/max_steps": "10/31", "percentage": "32.26%", "elapsed_time": "31m 18s", "remaining_time": "1h 5m 45s"}
+{"eval_loss": 0.32765248, "eval_runtime": 53.0197, "eval_samples_per_second": 0.585, "eval_steps_per_second": 0.075, "eval_rewards/chosen": -0.02246094, "eval_rewards/rejected": -0.02105713, "eval_rewards/accuracies": 0.25, "eval_rewards/margins": -0.00140381, "eval_logps/rejected": -0.21069336, "eval_logps/chosen": -0.22485352, "eval_logits/rejected": -0.50292969, "eval_logits/chosen": -0.43798828, "eval_nll_loss": 0.22509766, "eval_log_odds_ratio": -0.72851562, "eval_log_odds_chosen": -0.07080078, "epoch": 0.31496063, "global_step/max_steps": "10/31", "percentage": "32.26%", "elapsed_time": "32m 11s", "remaining_time": "1h 7m 36s"}