diff --git "a/logging.jsonl" "b/logging.jsonl"
--- "a/logging.jsonl"
+++ "b/logging.jsonl"
@@ -1,154 +1,12 @@
-{"loss": 1.13067627, "grad_norm": 0.64583141, "learning_rate": 5.9e-07, "memory(GiB)": 71.89, "train_speed(iter/s)": 0.003615, "rewards/chosen": -0.07641602, "rewards/rejected": -0.07684326, "rewards/accuracies": 0.75, "rewards/margins": 0.00042725, "logps/rejected": -0.76855469, "logps/chosen": -0.76245117, "logits/rejected": -0.13487244, "logits/chosen": -0.01712036, "nll_loss": 0.76245117, "log_odds_ratio": -0.67871094, "log_odds_chosen": 0.03588867, "epoch": 0.0035461, "global_step/max_steps": "1/846", "percentage": "0.12%", "elapsed_time": "4m 19s", "remaining_time": "2d 13h 0m 27s"}
-{"loss": 1.12945557, "grad_norm": 0.40638471, "learning_rate": 1.18e-06, "memory(GiB)": 132.59, "train_speed(iter/s)": 0.003565, "rewards/chosen": -0.20227051, "rewards/rejected": -0.15795898, "rewards/accuracies": 0.5, "rewards/margins": -0.04431152, "logps/rejected": -1.57910156, "logps/chosen": -2.0234375, "logits/rejected": -0.42211914, "logits/chosen": -0.40869141, "nll_loss": 2.02148438, "log_odds_ratio": -0.98632812, "log_odds_chosen": -0.35058594, "epoch": 0.0070922, "global_step/max_steps": "2/846", "percentage": "0.24%", "elapsed_time": "9m 4s", "remaining_time": "2d 15h 47m 48s"}
-{"loss": 1.15829468, "grad_norm": 0.81067997, "learning_rate": 1.76e-06, "memory(GiB)": 132.59, "train_speed(iter/s)": 0.003583, "rewards/chosen": -0.03308105, "rewards/rejected": -0.02667236, "rewards/accuracies": 0.25, "rewards/margins": -0.00640869, "logps/rejected": -0.26708984, "logps/chosen": -0.33056641, "logits/rejected": -0.19258118, "logits/chosen": -0.13775635, "nll_loss": 0.33056641, "log_odds_ratio": -0.87207031, "log_odds_chosen": -0.28295898, "epoch": 0.0106383, "global_step/max_steps": "3/846", "percentage": "0.35%", "elapsed_time": "13m 40s", "remaining_time": "2d 16h 2m 54s"}
-{"loss": 1.11914062, "grad_norm": 0.91426826, "learning_rate": 2.35e-06, "memory(GiB)": 132.59, "train_speed(iter/s)": 0.003807, "rewards/chosen": -0.04940796, "rewards/rejected": -0.05230713, "rewards/accuracies": 0.5, "rewards/margins": 0.00289917, "logps/rejected": -0.5234375, "logps/chosen": -0.49365234, "logits/rejected": -0.22619629, "logits/chosen": -0.07446289, "nll_loss": 0.49414062, "log_odds_ratio": -0.70898438, "log_odds_chosen": -0.01660156, "epoch": 0.0141844, "global_step/max_steps": "4/846", "percentage": "0.47%", "elapsed_time": "17m 13s", "remaining_time": "2d 12h 27m 13s"}
-{"loss": 1.1842041, "grad_norm": 0.51992393, "learning_rate": 2.94e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003961, "rewards/chosen": -0.44195557, "rewards/rejected": -0.4315033, "rewards/accuracies": 0.5, "rewards/margins": -0.01043701, "logps/rejected": -4.30773926, "logps/chosen": -4.41992188, "logits/rejected": -0.80297852, "logits/chosen": -0.92907715, "nll_loss": 4.41894531, "log_odds_ratio": -1.01074219, "log_odds_chosen": -0.42773438, "epoch": 0.0177305, "global_step/max_steps": "5/846", "percentage": "0.59%", "elapsed_time": "20m 45s", "remaining_time": "2d 10h 11m 25s"}
-{"loss": 0.94470215, "grad_norm": 0.43907565, "learning_rate": 3.53e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.004064, "rewards/chosen": -0.04534912, "rewards/rejected": -0.03717041, "rewards/accuracies": 0.0, "rewards/margins": -0.00817871, "logps/rejected": -0.37121582, "logps/chosen": -0.45361328, "logits/rejected": -0.02148438, "logits/chosen": -0.22029114, "nll_loss": 0.45458984, "log_odds_ratio": -0.94628906, "log_odds_chosen": -0.40332031, "epoch": 0.0212766, "global_step/max_steps": "6/846", "percentage": "0.71%", "elapsed_time": "24m 19s", "remaining_time": "2d 8h 45m 40s"}
-{"loss": 0.69799805, "grad_norm": 0.33003554, "learning_rate": 4.12e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00413, "rewards/chosen": -0.04724121, "rewards/rejected": -0.04620361, "rewards/accuracies": 0.5, "rewards/margins": -0.0010376, "logps/rejected": -0.46240234, "logps/chosen": -0.47265625, "logits/rejected": -0.20344543, "logits/chosen": -0.24220276, "nll_loss": 0.47216797, "log_odds_ratio": -0.81787109, "log_odds_chosen": -0.16503906, "epoch": 0.0248227, "global_step/max_steps": "7/846", "percentage": "0.83%", "elapsed_time": "27m 58s", "remaining_time": "2d 7h 52m 30s"}
-{"loss": 1.16265869, "grad_norm": 0.52832752, "learning_rate": 4.71e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003879, "rewards/chosen": -0.0425415, "rewards/rejected": -0.06494141, "rewards/accuracies": 0.75, "rewards/margins": 0.0223999, "logps/rejected": -0.64916992, "logps/chosen": -0.42578125, "logits/rejected": -0.28625488, "logits/chosen": -0.14660645, "nll_loss": 0.42529297, "log_odds_ratio": -0.56982422, "log_odds_chosen": 0.37695312, "epoch": 0.02836879, "global_step/max_steps": "8/846", "percentage": "0.95%", "elapsed_time": "34m 5s", "remaining_time": "2d 11h 31m 22s"}
-{"loss": 1.17169189, "grad_norm": 0.5640173, "learning_rate": 5.29e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003907, "rewards/chosen": -0.09313965, "rewards/rejected": -0.10186768, "rewards/accuracies": 0.5, "rewards/margins": 0.00872803, "logps/rejected": -1.01782227, "logps/chosen": -0.93261719, "logits/rejected": -0.22460938, "logits/chosen": -0.27026367, "nll_loss": 0.93261719, "log_odds_ratio": -0.71630859, "log_odds_chosen": 0.06787109, "epoch": 0.03191489, "global_step/max_steps": "9/846", "percentage": "1.06%", "elapsed_time": "38m 6s", "remaining_time": "2d 11h 4m 40s"}
-{"loss": 1.09545898, "grad_norm": 0.77669293, "learning_rate": 5.88e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003952, "rewards/chosen": -0.05889893, "rewards/rejected": -0.05953979, "rewards/accuracies": 0.75, "rewards/margins": 0.00067139, "logps/rejected": -0.59533691, "logps/chosen": -0.58886719, "logits/rejected": -0.19677734, "logits/chosen": -0.28369141, "nll_loss": 0.58886719, "log_odds_ratio": -0.95654297, "log_odds_chosen": -0.1953125, "epoch": 0.03546099, "global_step/max_steps": "10/846", "percentage": "1.18%", "elapsed_time": "41m 53s", "remaining_time": "2d 10h 22m 4s"}
-{"eval_loss": 1.01127422, "eval_runtime": 568.4331, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.08544225, "eval_rewards/rejected": -0.07977121, "eval_rewards/accuracies": 0.51428574, "eval_rewards/margins": -0.00566755, "eval_logps/rejected": -0.79744697, "eval_logps/chosen": -0.85415739, "eval_logits/rejected": -0.20883882, "eval_logits/chosen": -0.30125907, "eval_nll_loss": 0.85499442, "eval_log_odds_ratio": -0.8639788, "eval_log_odds_chosen": -0.20164621, "epoch": 0.03546099, "global_step/max_steps": "10/846", "percentage": "1.18%", "elapsed_time": "51m 21s", "remaining_time": "2d 23h 34m 5s"}
-{"loss": 1.0057373, "grad_norm": 0.39458957, "learning_rate": 6.47e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00328, "rewards/chosen": -0.04196167, "rewards/rejected": -0.01541138, "rewards/accuracies": 0.0, "rewards/margins": -0.02655029, "logps/rejected": -0.15393066, "logps/chosen": -0.41918945, "logits/rejected": -0.23266602, "logits/chosen": -0.4309082, "nll_loss": 0.41918945, "log_odds_ratio": -1.38867188, "log_odds_chosen": -1.06347656, "epoch": 0.03900709, "global_step/max_steps": "11/846", "percentage": "1.30%", "elapsed_time": "55m 37s", "remaining_time": "2d 22h 22m 2s"}
-{"loss": 1.1730957, "grad_norm": 0.51496351, "learning_rate": 7.06e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003325, "rewards/chosen": -0.04824829, "rewards/rejected": -0.03048706, "rewards/accuracies": 0.25, "rewards/margins": -0.01776123, "logps/rejected": -0.3046875, "logps/chosen": -0.48193359, "logits/rejected": -0.2678833, "logits/chosen": -0.13671875, "nll_loss": 0.48120117, "log_odds_ratio": -1.08886719, "log_odds_chosen": -0.60009766, "epoch": 0.04255319, "global_step/max_steps": "12/846", "percentage": "1.42%", "elapsed_time": "59m 52s", "remaining_time": "2d 21h 20m 56s"}
-{"loss": 0.5557251, "grad_norm": 0.26571795, "learning_rate": 7.65e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003462, "rewards/chosen": -0.03466797, "rewards/rejected": -0.03210449, "rewards/accuracies": 0.5, "rewards/margins": -0.00256348, "logps/rejected": -0.3215332, "logps/chosen": -0.34643555, "logits/rejected": -0.29168701, "logits/chosen": -0.2668457, "nll_loss": 0.34692383, "log_odds_ratio": -0.77441406, "log_odds_chosen": -0.12329102, "epoch": 0.04609929, "global_step/max_steps": "13/846", "percentage": "1.54%", "elapsed_time": "1h 2m 18s", "remaining_time": "2d 18h 32m 18s"}
-{"loss": 1.12460327, "grad_norm": 0.26892415, "learning_rate": 8.24e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003505, "rewards/chosen": -0.04568481, "rewards/rejected": -0.06542969, "rewards/accuracies": 1.0, "rewards/margins": 0.01974487, "logps/rejected": -0.65429688, "logps/chosen": -0.45703125, "logits/rejected": -0.27685547, "logits/chosen": -0.21679688, "nll_loss": 0.45605469, "log_odds_ratio": -0.49169922, "log_odds_chosen": 0.47216797, "epoch": 0.04964539, "global_step/max_steps": "14/846", "percentage": "1.65%", "elapsed_time": "1h 6m 17s", "remaining_time": "2d 17h 39m 48s"}
-{"loss": 0.92358398, "grad_norm": 0.36160314, "learning_rate": 8.82e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003532, "rewards/chosen": -0.03076172, "rewards/rejected": -0.03619385, "rewards/accuracies": 0.5, "rewards/margins": 0.00543213, "logps/rejected": -0.36230469, "logps/chosen": -0.30761719, "logits/rejected": -0.39599609, "logits/chosen": -0.14172363, "nll_loss": 0.30786133, "log_odds_ratio": -0.69628906, "log_odds_chosen": 0.05078125, "epoch": 0.05319149, "global_step/max_steps": "15/846", "percentage": "1.77%", "elapsed_time": "1h 10m 29s", "remaining_time": "2d 17h 5m 31s"}
-{"loss": 1.06408691, "grad_norm": 0.44542322, "learning_rate": 9.41e-06, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003495, "rewards/chosen": -0.22637939, "rewards/rejected": -0.22445679, "rewards/accuracies": 0.5, "rewards/margins": -0.00192261, "logps/rejected": -2.24804688, "logps/chosen": -2.26025391, "logits/rejected": -0.57104492, "logits/chosen": -0.57196045, "nll_loss": 2.26855469, "log_odds_ratio": -0.73632812, "log_odds_chosen": -0.06152344, "epoch": 0.05673759, "global_step/max_steps": "16/846", "percentage": "1.89%", "elapsed_time": "1h 16m 1s", "remaining_time": "2d 17h 44m 6s"}
-{"loss": 0.83654785, "grad_norm": 0.48556554, "learning_rate": 1e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00354, "rewards/chosen": -0.05145264, "rewards/rejected": -0.06237793, "rewards/accuracies": 1.0, "rewards/margins": 0.01092529, "logps/rejected": -0.62304688, "logps/chosen": -0.51416016, "logits/rejected": -0.28295898, "logits/chosen": -0.29956055, "nll_loss": 0.51464844, "log_odds_ratio": -0.57324219, "log_odds_chosen": 0.25732422, "epoch": 0.06028369, "global_step/max_steps": "17/846", "percentage": "2.01%", "elapsed_time": "1h 19m 45s", "remaining_time": "2d 16h 49m 3s"}
-{"loss": 0.52600098, "grad_norm": 0.24246804, "learning_rate": 1.059e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.0036, "rewards/chosen": -0.0491333, "rewards/rejected": -0.05314636, "rewards/accuracies": 0.25, "rewards/margins": 0.00401306, "logps/rejected": -0.53125, "logps/chosen": -0.49047852, "logits/rejected": -0.53515625, "logits/chosen": -0.2467041, "nll_loss": 0.49023438, "log_odds_ratio": -0.69384766, "log_odds_chosen": 0.15551758, "epoch": 0.06382979, "global_step/max_steps": "18/846", "percentage": "2.13%", "elapsed_time": "1h 23m 3s", "remaining_time": "2d 15h 40m 37s"}
-{"loss": 0.57077026, "grad_norm": 0.30607018, "learning_rate": 1.118e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003622, "rewards/chosen": -0.037323, "rewards/rejected": -0.04693604, "rewards/accuracies": 1.0, "rewards/margins": 0.00961304, "logps/rejected": -0.46972656, "logps/chosen": -0.37353516, "logits/rejected": -0.41455078, "logits/chosen": -0.31542969, "nll_loss": 0.37329102, "log_odds_ratio": -0.56884766, "log_odds_chosen": 0.27099609, "epoch": 0.06737589, "global_step/max_steps": "19/846", "percentage": "2.25%", "elapsed_time": "1h 27m 8s", "remaining_time": "2d 15h 12m 49s"}
-{"loss": 0.6907959, "grad_norm": 0.31484079, "learning_rate": 1.176e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003692, "rewards/chosen": -0.04748535, "rewards/rejected": -0.05041504, "rewards/accuracies": 0.75, "rewards/margins": 0.00292969, "logps/rejected": -0.50390625, "logps/chosen": -0.47509766, "logits/rejected": -0.53076172, "logits/chosen": -0.45361328, "nll_loss": 0.47607422, "log_odds_ratio": -0.6484375, "log_odds_chosen": 0.10205078, "epoch": 0.07092199, "global_step/max_steps": "20/846", "percentage": "2.36%", "elapsed_time": "1h 30m 0s", "remaining_time": "2d 13h 57m 0s"}
-{"eval_loss": 0.86168164, "eval_runtime": 568.489, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.07761579, "eval_rewards/rejected": -0.07557547, "eval_rewards/accuracies": 0.54285717, "eval_rewards/margins": -0.00203334, "eval_logps/rejected": -0.75524551, "eval_logps/chosen": -0.77572542, "eval_logits/rejected": -0.44304547, "eval_logits/chosen": -0.5358817, "eval_nll_loss": 0.77586496, "eval_log_odds_ratio": -0.80276227, "eval_log_odds_chosen": -0.08660714, "epoch": 0.07092199, "global_step/max_steps": "20/846", "percentage": "2.36%", "elapsed_time": "1h 39m 28s", "remaining_time": "2d 20h 28m 19s"}
-{"loss": 1.0385437, "grad_norm": 0.43978798, "learning_rate": 1.235e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00336, "rewards/chosen": -0.04476929, "rewards/rejected": -0.05661011, "rewards/accuracies": 0.75, "rewards/margins": 0.01184082, "logps/rejected": -0.56591797, "logps/chosen": -0.44750977, "logits/rejected": -0.49853516, "logits/chosen": -0.54980469, "nll_loss": 0.44677734, "log_odds_ratio": -0.61083984, "log_odds_chosen": 0.20727539, "epoch": 0.07446809, "global_step/max_steps": "21/846", "percentage": "2.48%", "elapsed_time": "1h 43m 52s", "remaining_time": "2d 20h 0m 46s"}
-{"loss": 0.83319092, "grad_norm": 0.3683359, "learning_rate": 1.294e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003338, "rewards/chosen": -0.128479, "rewards/rejected": -0.11782837, "rewards/accuracies": 0.25, "rewards/margins": -0.01065063, "logps/rejected": -1.17822266, "logps/chosen": -1.28369141, "logits/rejected": -0.52734375, "logits/chosen": -0.734375, "nll_loss": 1.28710938, "log_odds_ratio": -0.89941406, "log_odds_chosen": -0.30566406, "epoch": 0.07801418, "global_step/max_steps": "22/846", "percentage": "2.60%", "elapsed_time": "1h 49m 33s", "remaining_time": "2d 20h 23m 30s"}
-{"loss": 0.89477539, "grad_norm": 0.44874448, "learning_rate": 1.353e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003388, "rewards/chosen": -0.16119385, "rewards/rejected": -0.11083984, "rewards/accuracies": 0.5, "rewards/margins": -0.050354, "logps/rejected": -1.10888672, "logps/chosen": -1.609375, "logits/rejected": -0.71630859, "logits/chosen": -0.65576172, "nll_loss": 1.59960938, "log_odds_ratio": -1.05078125, "log_odds_chosen": -0.48242188, "epoch": 0.08156028, "global_step/max_steps": "23/846", "percentage": "2.72%", "elapsed_time": "1h 52m 52s", "remaining_time": "2d 19h 18m 59s"}
-{"loss": 0.57855225, "grad_norm": 0.22679809, "learning_rate": 1.412e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003427, "rewards/chosen": -0.03723145, "rewards/rejected": -0.03857422, "rewards/accuracies": 0.5, "rewards/margins": 0.00134277, "logps/rejected": -0.38574219, "logps/chosen": -0.37255859, "logits/rejected": -0.52099609, "logits/chosen": -0.38623047, "nll_loss": 0.37207031, "log_odds_ratio": -0.70410156, "log_odds_chosen": 0.00439453, "epoch": 0.08510638, "global_step/max_steps": "24/846", "percentage": "2.84%", "elapsed_time": "1h 56m 26s", "remaining_time": "2d 18h 27m 59s"}
-{"loss": 0.53894043, "grad_norm": 0.59370035, "learning_rate": 1.471e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003498, "rewards/chosen": -0.04165649, "rewards/rejected": -0.05249023, "rewards/accuracies": 0.5, "rewards/margins": 0.01083374, "logps/rejected": -0.52539062, "logps/chosen": -0.41601562, "logits/rejected": -0.50292969, "logits/chosen": -0.47070312, "nll_loss": 0.41552734, "log_odds_ratio": -0.59082031, "log_odds_chosen": 0.24853516, "epoch": 0.08865248, "global_step/max_steps": "25/846", "percentage": "2.96%", "elapsed_time": "1h 58m 51s", "remaining_time": "2d 17h 3m 6s"}
-{"loss": 0.5435791, "grad_norm": 0.20641558, "learning_rate": 1.529e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003559, "rewards/chosen": -0.10461426, "rewards/rejected": -0.125, "rewards/accuracies": 1.0, "rewards/margins": 0.02038574, "logps/rejected": -1.25097656, "logps/chosen": -1.04541016, "logits/rejected": -0.47363281, "logits/chosen": -0.45849609, "nll_loss": 1.04443359, "log_odds_ratio": -0.51855469, "log_odds_chosen": 0.39453125, "epoch": 0.09219858, "global_step/max_steps": "26/846", "percentage": "3.07%", "elapsed_time": "2h 1m 28s", "remaining_time": "2d 15h 51m 14s"}
-{"loss": 1.04721069, "grad_norm": 0.59892696, "learning_rate": 1.588e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003549, "rewards/chosen": -0.03030396, "rewards/rejected": -0.03108215, "rewards/accuracies": 0.5, "rewards/margins": 0.0007782, "logps/rejected": -0.31054688, "logps/chosen": -0.30322266, "logits/rejected": -0.28808594, "logits/chosen": -0.34326172, "nll_loss": 0.30273438, "log_odds_ratio": -0.76367188, "log_odds_chosen": -0.08789062, "epoch": 0.09574468, "global_step/max_steps": "27/846", "percentage": "3.19%", "elapsed_time": "2h 6m 31s", "remaining_time": "2d 15h 58m 6s"}
-{"loss": 0.62664795, "grad_norm": 0.37890282, "learning_rate": 1.647e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003547, "rewards/chosen": -0.03762817, "rewards/rejected": -0.04092407, "rewards/accuracies": 0.5, "rewards/margins": 0.0032959, "logps/rejected": -0.40893555, "logps/chosen": -0.3762207, "logits/rejected": -0.41064453, "logits/chosen": -0.35009766, "nll_loss": 0.37573242, "log_odds_ratio": -0.71972656, "log_odds_chosen": -0.01123047, "epoch": 0.09929078, "global_step/max_steps": "28/846", "percentage": "3.31%", "elapsed_time": "2h 11m 17s", "remaining_time": "2d 15h 55m 46s"}
-{"loss": 0.53997803, "grad_norm": 0.20752384, "learning_rate": 1.706e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00355, "rewards/chosen": -0.06628418, "rewards/rejected": -0.06677246, "rewards/accuracies": 0.25, "rewards/margins": 0.00048828, "logps/rejected": -0.66674805, "logps/chosen": -0.66259766, "logits/rejected": -0.32318115, "logits/chosen": -0.43847656, "nll_loss": 0.66357422, "log_odds_ratio": -0.75439453, "log_odds_chosen": -0.08642578, "epoch": 0.10283688, "global_step/max_steps": "29/846", "percentage": "3.43%", "elapsed_time": "2h 15m 52s", "remaining_time": "2d 15h 47m 47s"}
-{"loss": 0.5083313, "grad_norm": 0.23886155, "learning_rate": 1.765e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003603, "rewards/chosen": -0.05285645, "rewards/rejected": -0.05874634, "rewards/accuracies": 0.5, "rewards/margins": 0.00588989, "logps/rejected": -0.58691406, "logps/chosen": -0.52880859, "logits/rejected": -0.35546875, "logits/chosen": -0.35009766, "nll_loss": 0.52734375, "log_odds_ratio": -0.64501953, "log_odds_chosen": 0.14208984, "epoch": 0.10638298, "global_step/max_steps": "30/846", "percentage": "3.55%", "elapsed_time": "2h 18m 28s", "remaining_time": "2d 14h 46m 43s"}
-{"eval_loss": 0.74304855, "eval_runtime": 567.5631, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.0692627, "eval_rewards/rejected": -0.07016776, "eval_rewards/accuracies": 0.54285717, "eval_rewards/margins": 0.00090855, "eval_logps/rejected": -0.70131141, "eval_logps/chosen": -0.69271761, "eval_logits/rejected": -0.33178014, "eval_logits/chosen": -0.41922432, "eval_nll_loss": 0.69433594, "eval_log_odds_ratio": -0.77539062, "eval_log_odds_chosen": -0.02131696, "epoch": 0.10638298, "global_step/max_steps": "30/846", "percentage": "3.55%", "elapsed_time": "2h 27m 56s", "remaining_time": "2d 19h 4m 1s"}
-{"loss": 0.75561523, "grad_norm": 0.59174258, "learning_rate": 1.824e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003383, "rewards/chosen": -0.04098511, "rewards/rejected": -0.05322266, "rewards/accuracies": 0.75, "rewards/margins": 0.01223755, "logps/rejected": -0.53173828, "logps/chosen": -0.40991211, "logits/rejected": -0.43603516, "logits/chosen": -0.37451172, "nll_loss": 0.40991211, "log_odds_ratio": -0.578125, "log_odds_chosen": 0.28320312, "epoch": 0.10992908, "global_step/max_steps": "31/846", "percentage": "3.66%", "elapsed_time": "2h 32m 27s", "remaining_time": "2d 18h 48m 15s"}
-{"loss": 0.62573242, "grad_norm": 0.37340164, "learning_rate": 1.882e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003437, "rewards/chosen": -0.03677368, "rewards/rejected": -0.03384399, "rewards/accuracies": 0.75, "rewards/margins": -0.00292969, "logps/rejected": -0.33886719, "logps/chosen": -0.36791992, "logits/rejected": -0.3359375, "logits/chosen": -0.36230469, "nll_loss": 0.36791992, "log_odds_ratio": -0.86816406, "log_odds_chosen": -0.17138672, "epoch": 0.11347518, "global_step/max_steps": "32/846", "percentage": "3.78%", "elapsed_time": "2h 34m 53s", "remaining_time": "2d 17h 40m 12s"}
-{"loss": 0.65951538, "grad_norm": 0.64237517, "learning_rate": 1.941e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003447, "rewards/chosen": -0.03991699, "rewards/rejected": -0.05197144, "rewards/accuracies": 0.5, "rewards/margins": 0.01205444, "logps/rejected": -0.51953125, "logps/chosen": -0.39892578, "logits/rejected": -0.36707497, "logits/chosen": -0.41552734, "nll_loss": 0.39892578, "log_odds_ratio": -0.70654297, "log_odds_chosen": 0.13867188, "epoch": 0.11702128, "global_step/max_steps": "33/846", "percentage": "3.90%", "elapsed_time": "2h 39m 17s", "remaining_time": "2d 17h 24m 23s"}
-{"loss": 1.27050781, "grad_norm": 1.59193099, "learning_rate": 2e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003445, "rewards/chosen": -0.18203735, "rewards/rejected": -0.18597412, "rewards/accuracies": 0.75, "rewards/margins": 0.00393677, "logps/rejected": -1.85595703, "logps/chosen": -1.82177734, "logits/rejected": -0.62255859, "logits/chosen": -0.47241211, "nll_loss": 1.82275391, "log_odds_ratio": -0.6875, "log_odds_chosen": 0.02209473, "epoch": 0.12056738, "global_step/max_steps": "34/846", "percentage": "4.02%", "elapsed_time": "2h 44m 11s", "remaining_time": "2d 17h 21m 24s"}
-{"loss": 0.60180664, "grad_norm": 0.3293055, "learning_rate": 2.059e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003439, "rewards/chosen": -0.14660645, "rewards/rejected": -0.15151978, "rewards/accuracies": 0.5, "rewards/margins": 0.00491333, "logps/rejected": -1.515625, "logps/chosen": -1.46728516, "logits/rejected": -0.41687012, "logits/chosen": -0.53320312, "nll_loss": 1.46337891, "log_odds_ratio": -0.82324219, "log_odds_chosen": -0.15820312, "epoch": 0.12411348, "global_step/max_steps": "35/846", "percentage": "4.14%", "elapsed_time": "2h 49m 20s", "remaining_time": "2d 17h 23m 57s"}
-{"loss": 0.53482056, "grad_norm": 0.24976055, "learning_rate": 2.118e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003461, "rewards/chosen": -0.03656006, "rewards/rejected": -0.03845215, "rewards/accuracies": 0.25, "rewards/margins": 0.00189209, "logps/rejected": -0.38476562, "logps/chosen": -0.36572266, "logits/rejected": -0.45996094, "logits/chosen": -0.59179688, "nll_loss": 0.36621094, "log_odds_ratio": -0.8112793, "log_odds_chosen": -0.07373047, "epoch": 0.12765957, "global_step/max_steps": "36/846", "percentage": "4.26%", "elapsed_time": "2h 53m 3s", "remaining_time": "2d 16h 53m 54s"}
-{"loss": 0.58175659, "grad_norm": 0.46480194, "learning_rate": 2.176e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003482, "rewards/chosen": -0.06506348, "rewards/rejected": -0.06018066, "rewards/accuracies": 0.5, "rewards/margins": -0.00488281, "logps/rejected": -0.60253906, "logps/chosen": -0.65087891, "logits/rejected": -0.60253906, "logits/chosen": -0.64160156, "nll_loss": 0.65087891, "log_odds_ratio": -0.86230469, "log_odds_chosen": -0.26831055, "epoch": 0.13120567, "global_step/max_steps": "37/846", "percentage": "4.37%", "elapsed_time": "2h 56m 50s", "remaining_time": "2d 16h 26m 41s"}
-{"loss": 0.51385498, "grad_norm": 0.27136055, "learning_rate": 2.235e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003477, "rewards/chosen": -0.03686523, "rewards/rejected": -0.04516602, "rewards/accuracies": 0.5, "rewards/margins": 0.00830078, "logps/rejected": -0.4519043, "logps/chosen": -0.36816406, "logits/rejected": -0.73046875, "logits/chosen": -0.50927734, "nll_loss": 0.36816406, "log_odds_ratio": -0.69042969, "log_odds_chosen": 0.09960938, "epoch": 0.13475177, "global_step/max_steps": "38/846", "percentage": "4.49%", "elapsed_time": "3h 1m 52s", "remaining_time": "2d 16h 27m 15s"}
-{"loss": 0.53625488, "grad_norm": 0.28334594, "learning_rate": 2.294e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003479, "rewards/chosen": -0.02944946, "rewards/rejected": -0.03237915, "rewards/accuracies": 0.5, "rewards/margins": 0.00292969, "logps/rejected": -0.32397461, "logps/chosen": -0.29467773, "logits/rejected": -0.45263672, "logits/chosen": -0.54443359, "nll_loss": 0.29541016, "log_odds_ratio": -0.72363281, "log_odds_chosen": -0.02050781, "epoch": 0.13829787, "global_step/max_steps": "39/846", "percentage": "4.61%", "elapsed_time": "3h 6m 33s", "remaining_time": "2d 16h 20m 10s"}
-{"loss": 0.85571289, "grad_norm": 1.15672052, "learning_rate": 2.353e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003462, "rewards/chosen": -0.03948975, "rewards/rejected": -0.03668213, "rewards/accuracies": 0.5, "rewards/margins": -0.00280762, "logps/rejected": -0.36669922, "logps/chosen": -0.39501953, "logits/rejected": -0.51318359, "logits/chosen": -0.64648438, "nll_loss": 0.39550781, "log_odds_ratio": -0.83984375, "log_odds_chosen": -0.19335938, "epoch": 0.14184397, "global_step/max_steps": "40/846", "percentage": "4.73%", "elapsed_time": "3h 12m 18s", "remaining_time": "2d 16h 34m 54s"}
-{"eval_loss": 0.60996306, "eval_runtime": 568.3145, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.05402483, "eval_rewards/rejected": -0.05962263, "eval_rewards/accuracies": 0.54285717, "eval_rewards/margins": 0.00560128, "eval_logps/rejected": -0.59670758, "eval_logps/chosen": -0.54031807, "eval_logits/rejected": -0.39054826, "eval_logits/chosen": -0.48364955, "eval_nll_loss": 0.54006696, "eval_log_odds_ratio": -0.7198661, "eval_log_odds_chosen": 0.08420759, "epoch": 0.14184397, "global_step/max_steps": "40/846", "percentage": "4.73%", "elapsed_time": "3h 21m 46s", "remaining_time": "2d 19h 45m 45s"}
-{"loss": 0.41021729, "grad_norm": 0.11889356, "learning_rate": 2.412e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003327, "rewards/chosen": -0.03201294, "rewards/rejected": -0.03271484, "rewards/accuracies": 0.5, "rewards/margins": 0.0007019, "logps/rejected": -0.32763672, "logps/chosen": -0.32006836, "logits/rejected": -0.41894531, "logits/chosen": -0.49462891, "nll_loss": 0.32055664, "log_odds_ratio": -0.72167969, "log_odds_chosen": -0.02856445, "epoch": 0.14539007, "global_step/max_steps": "41/846", "percentage": "4.85%", "elapsed_time": "3h 25m 5s", "remaining_time": "2d 19h 6m 46s"}
-{"loss": 0.72360229, "grad_norm": 0.49443778, "learning_rate": 2.471e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003334, "rewards/chosen": -0.1395874, "rewards/rejected": -0.12646484, "rewards/accuracies": 0.25, "rewards/margins": -0.01312256, "logps/rejected": -1.26538086, "logps/chosen": -1.39453125, "logits/rejected": -0.43530273, "logits/chosen": -0.52490234, "nll_loss": 1.39257812, "log_odds_ratio": -0.83007812, "log_odds_chosen": -0.23852539, "epoch": 0.14893617, "global_step/max_steps": "42/846", "percentage": "4.96%", "elapsed_time": "3h 29m 39s", "remaining_time": "2d 18h 53m 20s"}
-{"loss": 0.63525391, "grad_norm": 2.11612439, "learning_rate": 2.529e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003343, "rewards/chosen": -0.03631592, "rewards/rejected": -0.04623413, "rewards/accuracies": 0.75, "rewards/margins": 0.00991821, "logps/rejected": -0.46166992, "logps/chosen": -0.36376953, "logits/rejected": -0.29223633, "logits/chosen": -0.33789062, "nll_loss": 0.36328125, "log_odds_ratio": -0.63476562, "log_odds_chosen": 0.17724609, "epoch": 0.15248227, "global_step/max_steps": "43/846", "percentage": "5.08%", "elapsed_time": "3h 34m 6s", "remaining_time": "2d 18h 38m 11s"}
-{"loss": 0.53894043, "grad_norm": 0.30298406, "learning_rate": 2.588e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003367, "rewards/chosen": -0.03259277, "rewards/rejected": -0.04592896, "rewards/accuracies": 0.75, "rewards/margins": 0.01333618, "logps/rejected": -0.4597168, "logps/chosen": -0.32617188, "logits/rejected": -0.30932617, "logits/chosen": -0.32519531, "nll_loss": 0.32666016, "log_odds_ratio": -0.54541016, "log_odds_chosen": 0.37646484, "epoch": 0.15602837, "global_step/max_steps": "44/846", "percentage": "5.20%", "elapsed_time": "3h 37m 30s", "remaining_time": "2d 18h 4m 40s"}
-{"loss": 0.50656128, "grad_norm": 5.59379911, "learning_rate": 2.647e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003371, "rewards/chosen": -0.04772949, "rewards/rejected": -0.05285645, "rewards/accuracies": 0.75, "rewards/margins": 0.00512695, "logps/rejected": -0.52783203, "logps/chosen": -0.4777832, "logits/rejected": -0.75244141, "logits/chosen": -0.25463867, "nll_loss": 0.47729492, "log_odds_ratio": -0.63476562, "log_odds_chosen": 0.1315918, "epoch": 0.15957447, "global_step/max_steps": "45/846", "percentage": "5.32%", "elapsed_time": "3h 42m 11s", "remaining_time": "2d 17h 54m 59s"}
-{"loss": 0.51062012, "grad_norm": 0.42346928, "learning_rate": 2.706e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003388, "rewards/chosen": -0.03561401, "rewards/rejected": -0.05187988, "rewards/accuracies": 1.0, "rewards/margins": 0.01626587, "logps/rejected": -0.51904297, "logps/chosen": -0.35595703, "logits/rejected": -0.44726562, "logits/chosen": -0.33886719, "nll_loss": 0.35595703, "log_odds_ratio": -0.48828125, "log_odds_chosen": 0.46679688, "epoch": 0.16312057, "global_step/max_steps": "46/846", "percentage": "5.44%", "elapsed_time": "3h 45m 59s", "remaining_time": "2d 17h 30m 18s"}
-{"loss": 0.47976685, "grad_norm": 0.2607522, "learning_rate": 2.765e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003405, "rewards/chosen": -0.03952026, "rewards/rejected": -0.065979, "rewards/accuracies": 1.0, "rewards/margins": 0.02645874, "logps/rejected": -0.66015625, "logps/chosen": -0.39453125, "logits/rejected": -0.46582031, "logits/chosen": -0.28149414, "nll_loss": 0.39453125, "log_odds_ratio": -0.44287109, "log_odds_chosen": 0.63964844, "epoch": 0.16666667, "global_step/max_steps": "47/846", "percentage": "5.56%", "elapsed_time": "3h 49m 46s", "remaining_time": "2d 17h 6m 13s"}
-{"loss": 0.56704712, "grad_norm": 0.53589839, "learning_rate": 2.824e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003409, "rewards/chosen": -0.05105591, "rewards/rejected": -0.04818726, "rewards/accuracies": 0.5, "rewards/margins": -0.00286865, "logps/rejected": -0.48095703, "logps/chosen": -0.51049805, "logits/rejected": -0.2677002, "logits/chosen": -0.32983398, "nll_loss": 0.50854492, "log_odds_ratio": -0.79199219, "log_odds_chosen": -0.17871094, "epoch": 0.17021277, "global_step/max_steps": "48/846", "percentage": "5.67%", "elapsed_time": "3h 54m 23s", "remaining_time": "2d 16h 56m 46s"}
-{"loss": 0.73065186, "grad_norm": 0.6364007, "learning_rate": 2.882e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003416, "rewards/chosen": -0.02392578, "rewards/rejected": -0.03857422, "rewards/accuracies": 0.75, "rewards/margins": 0.01464844, "logps/rejected": -0.38500977, "logps/chosen": -0.23901367, "logits/rejected": -0.69750977, "logits/chosen": -0.32373047, "nll_loss": 0.23925781, "log_odds_ratio": -0.50048828, "log_odds_chosen": 0.47460938, "epoch": 0.17375887, "global_step/max_steps": "49/846", "percentage": "5.79%", "elapsed_time": "3h 58m 48s", "remaining_time": "2d 16h 44m 10s"}
-{"loss": 0.45501709, "grad_norm": 0.88757813, "learning_rate": 2.941e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003431, "rewards/chosen": -0.03509521, "rewards/rejected": -0.03747559, "rewards/accuracies": 0.25, "rewards/margins": 0.00238037, "logps/rejected": -0.37451172, "logps/chosen": -0.35131836, "logits/rejected": -0.56542969, "logits/chosen": -0.28125, "nll_loss": 0.34985352, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.0300293, "epoch": 0.17730496, "global_step/max_steps": "50/846", "percentage": "5.91%", "elapsed_time": "4h 2m 37s", "remaining_time": "2d 16h 22m 41s"}
-{"eval_loss": 0.55152678, "eval_runtime": 567.4159, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04919085, "eval_rewards/rejected": -0.05774274, "eval_rewards/accuracies": 0.54285717, "eval_rewards/margins": 0.0085519, "eval_logps/rejected": -0.57717633, "eval_logps/chosen": -0.4920201, "eval_logits/rejected": -0.39200613, "eval_logits/chosen": -0.53825337, "eval_nll_loss": 0.49260601, "eval_log_odds_ratio": -0.69111329, "eval_log_odds_chosen": 0.15412946, "epoch": 0.17730496, "global_step/max_steps": "50/846", "percentage": "5.91%", "elapsed_time": "4h 12m 5s", "remaining_time": "2d 18h 53m 14s"}
-{"loss": 0.68814087, "grad_norm": 0.40822256, "learning_rate": 3e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003303, "rewards/chosen": -0.06164551, "rewards/rejected": -0.07446289, "rewards/accuracies": 0.5, "rewards/margins": 0.01281738, "logps/rejected": -0.74511719, "logps/chosen": -0.6171875, "logits/rejected": -0.45605469, "logits/chosen": -0.42529297, "nll_loss": 0.61523438, "log_odds_ratio": -0.57177734, "log_odds_chosen": 0.33105469, "epoch": 0.18085106, "global_step/max_steps": "51/846", "percentage": "6.03%", "elapsed_time": "4h 17m 5s", "remaining_time": "2d 18h 47m 36s"}
-{"loss": 0.48687744, "grad_norm": 2.13676453, "learning_rate": 3.059e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003322, "rewards/chosen": -0.04272461, "rewards/rejected": -0.04174805, "rewards/accuracies": 0.5, "rewards/margins": -0.00097656, "logps/rejected": -0.41748047, "logps/chosen": -0.42700195, "logits/rejected": -0.4453125, "logits/chosen": -0.59033203, "nll_loss": 0.42724609, "log_odds_ratio": -0.78295898, "log_odds_chosen": 0.03759766, "epoch": 0.18439716, "global_step/max_steps": "52/846", "percentage": "6.15%", "elapsed_time": "4h 20m 38s", "remaining_time": "2d 18h 19m 43s"}
-{"loss": 0.44311523, "grad_norm": 0.35048905, "learning_rate": 3.118e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003338, "rewards/chosen": -0.05374146, "rewards/rejected": -0.05793762, "rewards/accuracies": 0.75, "rewards/margins": 0.00419617, "logps/rejected": -0.57885742, "logps/chosen": -0.53662109, "logits/rejected": -0.31854248, "logits/chosen": -0.45947266, "nll_loss": 0.53613281, "log_odds_ratio": -0.73535156, "log_odds_chosen": 0.00195312, "epoch": 0.18794326, "global_step/max_steps": "53/846", "percentage": "6.26%", "elapsed_time": "4h 24m 23s", "remaining_time": "2d 17h 55m 50s"}
-{"loss": 0.64825439, "grad_norm": 0.63136286, "learning_rate": 3.176e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003352, "rewards/chosen": -0.03515625, "rewards/rejected": -0.03012085, "rewards/accuracies": 0.5, "rewards/margins": -0.0050354, "logps/rejected": -0.30126953, "logps/chosen": -0.35131836, "logits/rejected": -0.4609375, "logits/chosen": -0.59960938, "nll_loss": 0.35131836, "log_odds_ratio": -0.84667969, "log_odds_chosen": -0.19067383, "epoch": 0.19148936, "global_step/max_steps": "54/846", "percentage": "6.38%", "elapsed_time": "4h 28m 11s", "remaining_time": "2d 17h 33m 32s"}
-{"loss": 0.56750488, "grad_norm": 0.38366249, "learning_rate": 3.235e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003373, "rewards/chosen": -0.03503418, "rewards/rejected": -0.05117798, "rewards/accuracies": 0.75, "rewards/margins": 0.0161438, "logps/rejected": -0.51196289, "logps/chosen": -0.3503418, "logits/rejected": -0.59326172, "logits/chosen": -0.55175781, "nll_loss": 0.35058594, "log_odds_ratio": -0.56201172, "log_odds_chosen": 0.35351562, "epoch": 0.19503546, "global_step/max_steps": "55/846", "percentage": "6.50%", "elapsed_time": "4h 31m 28s", "remaining_time": "2d 17h 4m 16s"}
-{"loss": 0.45599365, "grad_norm": 0.49640739, "learning_rate": 3.294e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003387, "rewards/chosen": -0.02386475, "rewards/rejected": -0.02322388, "rewards/accuracies": 0.5, "rewards/margins": -0.00064087, "logps/rejected": -0.23242188, "logps/chosen": -0.23901367, "logits/rejected": -0.34570312, "logits/chosen": -0.54345703, "nll_loss": 0.24023438, "log_odds_ratio": -0.70996094, "log_odds_chosen": -0.02050781, "epoch": 0.19858156, "global_step/max_steps": "56/846", "percentage": "6.62%", "elapsed_time": "4h 35m 15s", "remaining_time": "2d 16h 43m 1s"}
-{"loss": 0.43283081, "grad_norm": 0.17249449, "learning_rate": 3.353e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003401, "rewards/chosen": -0.03973389, "rewards/rejected": -0.05648804, "rewards/accuracies": 1.0, "rewards/margins": 0.01675415, "logps/rejected": -0.5637207, "logps/chosen": -0.39794922, "logits/rejected": -0.64257812, "logits/chosen": -0.40869141, "nll_loss": 0.3984375, "log_odds_ratio": -0.53466797, "log_odds_chosen": 0.36621094, "epoch": 0.20212766, "global_step/max_steps": "57/846", "percentage": "6.74%", "elapsed_time": "4h 39m 2s", "remaining_time": "2d 16h 22m 27s"}
-{"loss": 0.47515869, "grad_norm": 0.66292804, "learning_rate": 3.412e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.00342, "rewards/chosen": -0.03240967, "rewards/rejected": -0.06323242, "rewards/accuracies": 1.0, "rewards/margins": 0.03082275, "logps/rejected": -0.6328125, "logps/chosen": -0.32446289, "logits/rejected": -0.48876953, "logits/chosen": -0.41748047, "nll_loss": 0.32446289, "log_odds_ratio": -0.35839844, "log_odds_chosen": 0.86279297, "epoch": 0.20567376, "global_step/max_steps": "58/846", "percentage": "6.86%", "elapsed_time": "4h 42m 24s", "remaining_time": "2d 15h 56m 46s"}
-{"loss": 0.56335449, "grad_norm": 0.32724813, "learning_rate": 3.471e-05, "memory(GiB)": 132.63, "train_speed(iter/s)": 0.003417, "rewards/chosen": -0.04937744, "rewards/rejected": -0.03973389, "rewards/accuracies": 0.25, "rewards/margins": -0.00967407, "logps/rejected": -0.39746094, "logps/chosen": -0.49365234, "logits/rejected": -0.52636719, "logits/chosen": -0.46289062, "nll_loss": 0.49414062, "log_odds_ratio": -0.97558594, "log_odds_chosen": -0.34179688, "epoch": 0.20921986, "global_step/max_steps": "59/846", "percentage": "6.97%", "elapsed_time": "4h 47m 29s", "remaining_time": "2d 15h 54m 46s"}
-{"loss": 0.59399414, "grad_norm": 0.35617474, "learning_rate": 3.529e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003414, "rewards/chosen": -0.11590576, "rewards/rejected": -0.13052368, "rewards/accuracies": 0.75, "rewards/margins": 0.01461792, "logps/rejected": -1.30615234, "logps/chosen": -1.15942383, "logits/rejected": -0.45605469, "logits/chosen": -0.51123047, "nll_loss": 1.15527344, "log_odds_ratio": -0.6015625, "log_odds_chosen": 0.2578125, "epoch": 0.21276596, "global_step/max_steps": "60/846", "percentage": "7.09%", "elapsed_time": "4h 52m 36s", "remaining_time": "2d 15h 53m 5s"}
-{"eval_loss": 0.51528198, "eval_runtime": 569.0683, "eval_samples_per_second": 0.49, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04447196, "eval_rewards/rejected": -0.05669643, "eval_rewards/accuracies": 0.5714286, "eval_rewards/margins": 0.01222098, "eval_logps/rejected": -0.56727123, "eval_logps/chosen": -0.44483817, "eval_logits/rejected": -0.49573103, "eval_logits/chosen": -0.58676058, "eval_nll_loss": 0.4451451, "eval_log_odds_ratio": -0.66418809, "eval_log_odds_chosen": 0.23603515, "epoch": 0.21276596, "global_step/max_steps": "60/846", "percentage": "7.09%", "elapsed_time": "5h 2m 5s", "remaining_time": "2d 17h 57m 20s"}
-{"loss": 0.43579102, "grad_norm": 0.1729926, "learning_rate": 3.588e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003312, "rewards/chosen": -0.03866577, "rewards/rejected": -0.05273438, "rewards/accuracies": 0.5, "rewards/margins": 0.0140686, "logps/rejected": -0.52709961, "logps/chosen": -0.38671875, "logits/rejected": -0.52148438, "logits/chosen": -0.66064453, "nll_loss": 0.38720703, "log_odds_ratio": -0.58544922, "log_odds_chosen": 0.32592773, "epoch": 0.21631206, "global_step/max_steps": "61/846", "percentage": "7.21%", "elapsed_time": "5h 6m 43s", "remaining_time": "2d 17h 47m 14s"}
-{"loss": 0.57427979, "grad_norm": 0.41821414, "learning_rate": 3.647e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003322, "rewards/chosen": -0.02902222, "rewards/rejected": -0.04418945, "rewards/accuracies": 0.5, "rewards/margins": 0.01516724, "logps/rejected": -0.44165039, "logps/chosen": -0.29003906, "logits/rejected": -0.68994141, "logits/chosen": -0.59667969, "nll_loss": 0.28930664, "log_odds_ratio": -0.54492188, "log_odds_chosen": 0.39526367, "epoch": 0.21985816, "global_step/max_steps": "62/846", "percentage": "7.33%", "elapsed_time": "5h 10m 46s", "remaining_time": "2d 17h 29m 45s"}
-{"loss": 0.45733643, "grad_norm": 0.20442817, "learning_rate": 3.706e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003326, "rewards/chosen": -0.0274353, "rewards/rejected": -0.0401001, "rewards/accuracies": 0.5, "rewards/margins": 0.01266479, "logps/rejected": -0.40161133, "logps/chosen": -0.27441406, "logits/rejected": -0.42837524, "logits/chosen": -0.63037109, "nll_loss": 0.27539062, "log_odds_ratio": -0.68847656, "log_odds_chosen": 0.17041016, "epoch": 0.22340426, "global_step/max_steps": "63/846", "percentage": "7.45%", "elapsed_time": "5h 15m 22s", "remaining_time": "2d 17h 19m 44s"}
-{"loss": 0.43252563, "grad_norm": 0.18592976, "learning_rate": 3.765e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003352, "rewards/chosen": -0.04388428, "rewards/rejected": -0.03240967, "rewards/accuracies": 0.5, "rewards/margins": -0.01147461, "logps/rejected": -0.32421875, "logps/chosen": -0.43896484, "logits/rejected": -0.49853516, "logits/chosen": -0.65332031, "nll_loss": 0.43725586, "log_odds_ratio": -0.90039062, "log_odds_chosen": -0.234375, "epoch": 0.22695035, "global_step/max_steps": "64/846", "percentage": "7.57%", "elapsed_time": "5h 17m 56s", "remaining_time": "2d 16h 44m 50s"}
-{"loss": 0.45120239, "grad_norm": 0.39740673, "learning_rate": 3.824e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003356, "rewards/chosen": -0.05407715, "rewards/rejected": -0.07208252, "rewards/accuracies": 0.75, "rewards/margins": 0.01800537, "logps/rejected": -0.71972656, "logps/chosen": -0.54052734, "logits/rejected": -0.640625, "logits/chosen": -0.56445312, "nll_loss": 0.53857422, "log_odds_ratio": -0.49658203, "log_odds_chosen": 0.50683594, "epoch": 0.23049645, "global_step/max_steps": "65/846", "percentage": "7.68%", "elapsed_time": "5h 22m 28s", "remaining_time": "2d 16h 34m 44s"}
-{"loss": 0.41183472, "grad_norm": 0.27735037, "learning_rate": 3.882e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003363, "rewards/chosen": -0.04510498, "rewards/rejected": -0.05232239, "rewards/accuracies": 0.75, "rewards/margins": 0.00721741, "logps/rejected": -0.52429199, "logps/chosen": -0.45117188, "logits/rejected": -0.58959961, "logits/chosen": -0.64355469, "nll_loss": 0.45019531, "log_odds_ratio": -0.69042969, "log_odds_chosen": 0.09472656, "epoch": 0.23404255, "global_step/max_steps": "66/846", "percentage": "7.80%", "elapsed_time": "5h 26m 46s", "remaining_time": "2d 16h 21m 55s"}
-{"loss": 0.57513428, "grad_norm": 0.78263479, "learning_rate": 3.941e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003369, "rewards/chosen": -0.07910156, "rewards/rejected": -0.06591797, "rewards/accuracies": 0.25, "rewards/margins": -0.01318359, "logps/rejected": -0.66040039, "logps/chosen": -0.79052734, "logits/rejected": -0.52294922, "logits/chosen": -0.95214844, "nll_loss": 0.79003906, "log_odds_ratio": -0.95117188, "log_odds_chosen": -0.42822266, "epoch": 0.23758865, "global_step/max_steps": "67/846", "percentage": "7.92%", "elapsed_time": "5h 31m 9s", "remaining_time": "2d 16h 10m 14s"}
-{"loss": 0.47213745, "grad_norm": 1.67828894, "learning_rate": 4e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003388, "rewards/chosen": -0.03662109, "rewards/rejected": -0.04827881, "rewards/accuracies": 0.5, "rewards/margins": 0.01165771, "logps/rejected": -0.48242188, "logps/chosen": -0.3659668, "logits/rejected": -0.59375, "logits/chosen": -0.59375, "nll_loss": 0.36645508, "log_odds_ratio": -0.55712891, "log_odds_chosen": 0.34570312, "epoch": 0.24113475, "global_step/max_steps": "68/846", "percentage": "8.04%", "elapsed_time": "5h 34m 14s", "remaining_time": "2d 15h 44m 6s"}
-{"loss": 0.45248413, "grad_norm": 0.21920082, "learning_rate": 4.059e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003404, "rewards/chosen": -0.03128052, "rewards/rejected": -0.05340576, "rewards/accuracies": 0.75, "rewards/margins": 0.02212524, "logps/rejected": -0.53344727, "logps/chosen": -0.31323242, "logits/rejected": -0.62792969, "logits/chosen": -0.60009766, "nll_loss": 0.31323242, "log_odds_ratio": -0.53564453, "log_odds_chosen": 0.49414062, "epoch": 0.24468085, "global_step/max_steps": "69/846", "percentage": "8.16%", "elapsed_time": "5h 37m 34s", "remaining_time": "2d 15h 21m 21s"}
-{"loss": 0.4703064, "grad_norm": 0.631082, "learning_rate": 4.118e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003408, "rewards/chosen": -0.03152466, "rewards/rejected": -0.03097534, "rewards/accuracies": 0.75, "rewards/margins": -0.00054932, "logps/rejected": -0.30981445, "logps/chosen": -0.31518555, "logits/rejected": -0.51660156, "logits/chosen": -0.70898438, "nll_loss": 0.31494141, "log_odds_ratio": -0.78955078, "log_odds_chosen": -0.11157227, "epoch": 0.24822695, "global_step/max_steps": "70/846", "percentage": "8.27%", "elapsed_time": "5h 42m 0s", "remaining_time": "2d 15h 11m 26s"}
-{"eval_loss": 0.48562106, "eval_runtime": 567.2845, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04172538, "eval_rewards/rejected": -0.05870536, "eval_rewards/accuracies": 0.5714286, "eval_rewards/margins": 0.01696777, "eval_logps/rejected": -0.58699775, "eval_logps/chosen": -0.41746652, "eval_logits/rejected": -0.45200893, "eval_logits/chosen": -0.59333146, "eval_nll_loss": 0.41774553, "eval_log_odds_ratio": -0.63303572, "eval_log_odds_chosen": 0.34112725, "epoch": 0.24822695, "global_step/max_steps": "70/846", "percentage": "8.27%", "elapsed_time": "5h 51m 27s", "remaining_time": "2d 16h 56m 15s"}
-{"loss": 0.48828125, "grad_norm": 0.21826826, "learning_rate": 4.176e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003325, "rewards/chosen": -0.03344727, "rewards/rejected": -0.0305481, "rewards/accuracies": 0.5, "rewards/margins": -0.00289917, "logps/rejected": -0.30541992, "logps/chosen": -0.33422852, "logits/rejected": -0.65429688, "logits/chosen": -0.4375, "nll_loss": 0.33374023, "log_odds_ratio": -0.72851562, "log_odds_chosen": -0.05297852, "epoch": 0.25177305, "global_step/max_steps": "71/846", "percentage": "8.39%", "elapsed_time": "5h 55m 35s", "remaining_time": "2d 16h 41m 32s"}
-{"loss": 0.47457886, "grad_norm": 0.21602508, "learning_rate": 4.235e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003333, "rewards/chosen": -0.0328064, "rewards/rejected": -0.04934692, "rewards/accuracies": 1.0, "rewards/margins": 0.01654053, "logps/rejected": -0.49365234, "logps/chosen": -0.32836914, "logits/rejected": -0.61474609, "logits/chosen": -0.34716797, "nll_loss": 0.32885742, "log_odds_ratio": -0.51074219, "log_odds_chosen": 0.46191406, "epoch": 0.25531915, "global_step/max_steps": "72/846", "percentage": "8.51%", "elapsed_time": "5h 59m 46s", "remaining_time": "2d 16h 27m 38s"}
-{"loss": 0.63421631, "grad_norm": 2.1006496, "learning_rate": 4.294e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003319, "rewards/chosen": -0.0536499, "rewards/rejected": -0.06311035, "rewards/accuracies": 0.75, "rewards/margins": 0.00946045, "logps/rejected": -0.63183594, "logps/chosen": -0.53637695, "logits/rejected": -0.45361328, "logits/chosen": -0.39355469, "nll_loss": 0.53637695, "log_odds_ratio": -0.58251953, "log_odds_chosen": 0.27319336, "epoch": 0.25886525, "global_step/max_steps": "73/846", "percentage": "8.63%", "elapsed_time": "6h 6m 15s", "remaining_time": "2d 16h 38m 14s"}
-{"loss": 0.39096069, "grad_norm": 0.15995924, "learning_rate": 4.353e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.00334, "rewards/chosen": -0.05780029, "rewards/rejected": -0.06933594, "rewards/accuracies": 0.5, "rewards/margins": 0.01153564, "logps/rejected": -0.69335938, "logps/chosen": -0.57763672, "logits/rejected": -0.49609375, "logits/chosen": -0.58447266, "nll_loss": 0.57763672, "log_odds_ratio": -0.77148438, "log_odds_chosen": 0.04589844, "epoch": 0.26241135, "global_step/max_steps": "74/846", "percentage": "8.75%", "elapsed_time": "6h 8m 57s", "remaining_time": "2d 16h 9m 11s"}
-{"loss": 0.4354248, "grad_norm": 0.44490427, "learning_rate": 4.412e-05, "memory(GiB)": 132.64, "train_speed(iter/s)": 0.003357, "rewards/chosen": -0.05953979, "rewards/rejected": -0.07382202, "rewards/accuracies": 0.5, "rewards/margins": 0.01428223, "logps/rejected": -0.73852539, "logps/chosen": -0.59545898, "logits/rejected": -0.3203125, "logits/chosen": -0.57421875, "nll_loss": 0.59545898, "log_odds_ratio": -0.6953125, "log_odds_chosen": 0.05908203, "epoch": 0.26595745, "global_step/max_steps": "75/846", "percentage": "8.87%", "elapsed_time": "6h 12m 6s", "remaining_time": "2d 15h 45m 17s"}
-{"loss": 0.76516724, "grad_norm": 11.48701096, "learning_rate": 4.471e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003365, "rewards/chosen": -0.04443359, "rewards/rejected": -0.0592041, "rewards/accuracies": 0.75, "rewards/margins": 0.01477051, "logps/rejected": -0.59179688, "logps/chosen": -0.4440918, "logits/rejected": -0.71875, "logits/chosen": -0.48632812, "nll_loss": 0.44311523, "log_odds_ratio": -0.56958008, "log_odds_chosen": 0.35546875, "epoch": 0.26950355, "global_step/max_steps": "76/846", "percentage": "8.98%", "elapsed_time": "6h 16m 6s", "remaining_time": "2d 15h 30m 36s"}
-{"loss": 0.7489624, "grad_norm": 15.62507439, "learning_rate": 4.529e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003364, "rewards/chosen": -0.03152466, "rewards/rejected": -0.04275513, "rewards/accuracies": 1.0, "rewards/margins": 0.01123047, "logps/rejected": -0.42773438, "logps/chosen": -0.31469727, "logits/rejected": -0.44189453, "logits/chosen": -0.34667969, "nll_loss": 0.31469727, "log_odds_ratio": -0.56005859, "log_odds_chosen": 0.3112793, "epoch": 0.27304965, "global_step/max_steps": "77/846", "percentage": "9.10%", "elapsed_time": "6h 21m 14s", "remaining_time": "2d 15h 27m 31s"}
-{"loss": 0.47485352, "grad_norm": 0.16991726, "learning_rate": 4.588e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003381, "rewards/chosen": -0.05001831, "rewards/rejected": -0.04611206, "rewards/accuracies": 0.75, "rewards/margins": -0.00390625, "logps/rejected": -0.46166992, "logps/chosen": -0.50024414, "logits/rejected": -0.36035156, "logits/chosen": -0.51074219, "nll_loss": 0.5012207, "log_odds_ratio": -0.90673828, "log_odds_chosen": -0.11669922, "epoch": 0.27659574, "global_step/max_steps": "78/846", "percentage": "9.22%", "elapsed_time": "6h 24m 15s", "remaining_time": "2d 15h 3m 25s"}
-{"loss": 0.49139404, "grad_norm": 0.5450322, "learning_rate": 4.647e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003384, "rewards/chosen": -0.08761597, "rewards/rejected": -0.09869385, "rewards/accuracies": 0.75, "rewards/margins": 0.01107788, "logps/rejected": -0.98681641, "logps/chosen": -0.87646484, "logits/rejected": -0.41992188, "logits/chosen": -0.36914062, "nll_loss": 0.87255859, "log_odds_ratio": -0.55029297, "log_odds_chosen": 0.36621094, "epoch": 0.28014184, "global_step/max_steps": "79/846", "percentage": "9.34%", "elapsed_time": "6h 28m 50s", "remaining_time": "2d 14h 55m 16s"}
-{"loss": 0.36889648, "grad_norm": 0.12836225, "learning_rate": 4.706e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003394, "rewards/chosen": -0.03900146, "rewards/rejected": -0.06378174, "rewards/accuracies": 1.0, "rewards/margins": 0.02478027, "logps/rejected": -0.63769531, "logps/chosen": -0.390625, "logits/rejected": -0.49707031, "logits/chosen": -0.42773438, "nll_loss": 0.390625, "log_odds_ratio": -0.42822266, "log_odds_chosen": 0.63378906, "epoch": 0.28368794, "global_step/max_steps": "80/846", "percentage": "9.46%", "elapsed_time": "6h 32m 37s", "remaining_time": "2d 14h 39m 20s"}
-{"eval_loss": 0.46137503, "eval_runtime": 567.0644, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04029715, "eval_rewards/rejected": -0.06288365, "eval_rewards/accuracies": 0.60000002, "eval_rewards/margins": 0.02259696, "eval_logps/rejected": -0.62904578, "eval_logps/chosen": -0.40318081, "eval_logits/rejected": -0.41738281, "eval_logits/chosen": -0.56328124, "eval_nll_loss": 0.40343192, "eval_log_odds_ratio": -0.6054548, "eval_log_odds_chosen": 0.44620535, "epoch": 0.28368794, "global_step/max_steps": "80/846", "percentage": "9.46%", "elapsed_time": "6h 42m 4s", "remaining_time": "2d 16h 9m 50s"}
-{"loss": 0.46987915, "grad_norm": 0.27143297, "learning_rate": 4.765e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003325, "rewards/chosen": -0.03146362, "rewards/rejected": -0.08343506, "rewards/accuracies": 0.75, "rewards/margins": 0.05194092, "logps/rejected": -0.83496094, "logps/chosen": -0.31445312, "logits/rejected": -0.55566406, "logits/chosen": -0.47509766, "nll_loss": 0.31347656, "log_odds_ratio": -0.35742188, "log_odds_chosen": 1.12646484, "epoch": 0.28723404, "global_step/max_steps": "81/846", "percentage": "9.57%", "elapsed_time": "6h 45m 40s", "remaining_time": "2d 15h 51m 23s"}
-{"loss": 0.39550781, "grad_norm": 0.12050597, "learning_rate": 4.824e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003328, "rewards/chosen": -0.03045654, "rewards/rejected": -0.04644775, "rewards/accuracies": 0.5, "rewards/margins": 0.01599121, "logps/rejected": -0.46508789, "logps/chosen": -0.30493164, "logits/rejected": -0.53417969, "logits/chosen": -0.57080078, "nll_loss": 0.30517578, "log_odds_ratio": -0.62817383, "log_odds_chosen": 0.29101562, "epoch": 0.29078014, "global_step/max_steps": "82/846", "percentage": "9.69%", "elapsed_time": "6h 50m 20s", "remaining_time": "2d 15h 43m 9s"}
-{"loss": 0.44210815, "grad_norm": 0.28139696, "learning_rate": 4.882e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003331, "rewards/chosen": -0.03387451, "rewards/rejected": -0.08773804, "rewards/accuracies": 1.0, "rewards/margins": 0.05392456, "logps/rejected": -0.87768555, "logps/chosen": -0.33837891, "logits/rejected": -0.58007812, "logits/chosen": -0.51708984, "nll_loss": 0.33886719, "log_odds_ratio": -0.35058594, "log_odds_chosen": 1.05029297, "epoch": 0.29432624, "global_step/max_steps": "83/846", "percentage": "9.81%", "elapsed_time": "6h 54m 59s", "remaining_time": "2d 15h 34m 58s"}
-{"loss": 0.41412354, "grad_norm": 0.32055506, "learning_rate": 4.941e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003341, "rewards/chosen": -0.03250122, "rewards/rejected": -0.05073547, "rewards/accuracies": 0.5, "rewards/margins": 0.01824951, "logps/rejected": -0.50756836, "logps/chosen": -0.32519531, "logits/rejected": -0.52099609, "logits/chosen": -0.65576172, "nll_loss": 0.32470703, "log_odds_ratio": -0.68334961, "log_odds_chosen": 0.25097656, "epoch": 0.29787234, "global_step/max_steps": "84/846", "percentage": "9.93%", "elapsed_time": "6h 58m 44s", "remaining_time": "2d 15h 18m 38s"}
-{"loss": 0.46377563, "grad_norm": 0.23509526, "learning_rate": 5e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003351, "rewards/chosen": -0.0402832, "rewards/rejected": -0.04724121, "rewards/accuracies": 0.75, "rewards/margins": 0.00695801, "logps/rejected": -0.47241211, "logps/chosen": -0.40234375, "logits/rejected": -0.40332031, "logits/chosen": -0.38867188, "nll_loss": 0.40234375, "log_odds_ratio": -0.64013672, "log_odds_chosen": 0.1237793, "epoch": 0.30141844, "global_step/max_steps": "85/846", "percentage": "10.05%", "elapsed_time": "7h 2m 32s", "remaining_time": "2d 15h 2m 58s"}
-{"loss": 0.36767578, "grad_norm": 0.31167576, "learning_rate": 4.993e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003351, "rewards/chosen": -0.03240967, "rewards/rejected": -0.06170654, "rewards/accuracies": 0.75, "rewards/margins": 0.02926636, "logps/rejected": -0.6159668, "logps/chosen": -0.32373047, "logits/rejected": -0.56152344, "logits/chosen": -0.66503906, "nll_loss": 0.32421875, "log_odds_ratio": -0.61254883, "log_odds_chosen": 0.56054688, "epoch": 0.30496454, "global_step/max_steps": "86/846", "percentage": "10.17%", "elapsed_time": "7h 7m 29s", "remaining_time": "2d 14h 57m 51s"}
-{"loss": 0.41699219, "grad_norm": 0.57604909, "learning_rate": 4.987e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003364, "rewards/chosen": -0.02758789, "rewards/rejected": -0.052948, "rewards/accuracies": 0.5, "rewards/margins": 0.02536011, "logps/rejected": -0.53076172, "logps/chosen": -0.27563477, "logits/rejected": -0.68017578, "logits/chosen": -0.40576172, "nll_loss": 0.27587891, "log_odds_ratio": -0.54125977, "log_odds_chosen": 0.50512695, "epoch": 0.30851064, "global_step/max_steps": "87/846", "percentage": "10.28%", "elapsed_time": "7h 10m 42s", "remaining_time": "2d 14h 37m 34s"}
-{"loss": 0.44763184, "grad_norm": 0.21324904, "learning_rate": 4.98e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003367, "rewards/chosen": -0.04205322, "rewards/rejected": -0.0980835, "rewards/accuracies": 0.75, "rewards/margins": 0.05603027, "logps/rejected": -0.98120117, "logps/chosen": -0.42089844, "logits/rejected": -0.62402344, "logits/chosen": -0.64550781, "nll_loss": 0.41992188, "log_odds_ratio": -0.42919922, "log_odds_chosen": 0.92285156, "epoch": 0.31205674, "global_step/max_steps": "88/846", "percentage": "10.40%", "elapsed_time": "7h 15m 22s", "remaining_time": "2d 14h 30m 10s"}
-{"loss": 0.41741943, "grad_norm": 0.22002159, "learning_rate": 4.974e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003379, "rewards/chosen": -0.02786255, "rewards/rejected": -0.04867554, "rewards/accuracies": 0.75, "rewards/margins": 0.02078247, "logps/rejected": -0.48681641, "logps/chosen": -0.27856445, "logits/rejected": -0.60351562, "logits/chosen": -0.48632812, "nll_loss": 0.27856445, "log_odds_ratio": -0.4831543, "log_odds_chosen": 0.59326172, "epoch": 0.31560284, "global_step/max_steps": "89/846", "percentage": "10.52%", "elapsed_time": "7h 18m 43s", "remaining_time": "2d 14h 11m 36s"}
-{"loss": 0.42919922, "grad_norm": 1.31416249, "learning_rate": 4.967e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003377, "rewards/chosen": -0.02529907, "rewards/rejected": -0.09661865, "rewards/accuracies": 1.0, "rewards/margins": 0.07116699, "logps/rejected": -0.96728516, "logps/chosen": -0.25244141, "logits/rejected": -0.49121094, "logits/chosen": -0.42431641, "nll_loss": 0.25219727, "log_odds_ratio": -0.20922852, "log_odds_chosen": 1.62304688, "epoch": 0.31914894, "global_step/max_steps": "90/846", "percentage": "10.64%", "elapsed_time": "7h 23m 51s", "remaining_time": "2d 14h 8m 23s"}
-{"eval_loss": 0.4437269, "eval_runtime": 567.5286, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.03884277, "eval_rewards/rejected": -0.06968471, "eval_rewards/accuracies": 0.60000002, "eval_rewards/margins": 0.0308245, "eval_logps/rejected": -0.69681919, "eval_logps/chosen": -0.38858816, "eval_logits/rejected": -0.4211356, "eval_logits/chosen": -0.53345424, "eval_nll_loss": 0.38853237, "eval_log_odds_ratio": -0.5654785, "eval_log_odds_chosen": 0.59411269, "epoch": 0.31914894, "global_step/max_steps": "90/846", "percentage": "10.64%", "elapsed_time": "7h 33m 18s", "remaining_time": "2d 15h 27m 50s"}
-{"loss": 0.3678894, "grad_norm": 0.28386784, "learning_rate": 4.961e-05, "memory(GiB)": 132.87, "train_speed(iter/s)": 0.003316, "rewards/chosen": -0.0340271, "rewards/rejected": -0.12316895, "rewards/accuracies": 1.0, "rewards/margins": 0.08917236, "logps/rejected": -1.23242188, "logps/chosen": -0.34033203, "logits/rejected": -0.56054688, "logits/chosen": -0.54003906, "nll_loss": 0.33984375, "log_odds_ratio": -0.17895508, "log_odds_chosen": 1.74414062, "epoch": 0.32269504, "global_step/max_steps": "91/846", "percentage": "10.76%", "elapsed_time": "7h 37m 4s", "remaining_time": "2d 15h 12m 11s"}
-{"loss": 0.45108032, "grad_norm": 0.23196985, "learning_rate": 4.954e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003327, "rewards/chosen": -0.05859375, "rewards/rejected": -0.08605957, "rewards/accuracies": 0.5, "rewards/margins": 0.02746582, "logps/rejected": -0.8605957, "logps/chosen": -0.58691406, "logits/rejected": -0.53125, "logits/chosen": -0.47314453, "nll_loss": 0.58691406, "log_odds_ratio": -0.57128906, "log_odds_chosen": 0.35327148, "epoch": 0.32624113, "global_step/max_steps": "92/846", "percentage": "10.87%", "elapsed_time": "7h 40m 39s", "remaining_time": "2d 14h 55m 22s"}
-{"loss": 0.42868042, "grad_norm": 0.52491683, "learning_rate": 4.947e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003319, "rewards/chosen": -0.0284729, "rewards/rejected": -0.03726196, "rewards/accuracies": 0.5, "rewards/margins": 0.00878906, "logps/rejected": -0.37231445, "logps/chosen": -0.28491211, "logits/rejected": -0.33374023, "logits/chosen": -0.50732422, "nll_loss": 0.28466797, "log_odds_ratio": -0.63525391, "log_odds_chosen": 0.21679688, "epoch": 0.32978723, "global_step/max_steps": "93/846", "percentage": "10.99%", "elapsed_time": "7h 46m 39s", "remaining_time": "2d 14h 58m 28s"}
-{"loss": 0.3913269, "grad_norm": 0.38544732, "learning_rate": 4.941e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003326, "rewards/chosen": -0.05627441, "rewards/rejected": -0.05636597, "rewards/accuracies": 0.5, "rewards/margins": 9.155e-05, "logps/rejected": -0.56274414, "logps/chosen": -0.56176758, "logits/rejected": -0.45361328, "logits/chosen": -0.62695312, "nll_loss": 0.56079102, "log_odds_ratio": -0.82324219, "log_odds_chosen": -0.19091797, "epoch": 0.33333333, "global_step/max_steps": "94/846", "percentage": "11.11%", "elapsed_time": "7h 50m 41s", "remaining_time": "2d 14h 45m 34s"}
-{"loss": 0.40863037, "grad_norm": 0.22966625, "learning_rate": 4.934e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003334, "rewards/chosen": -0.03619385, "rewards/rejected": -0.05465698, "rewards/accuracies": 1.0, "rewards/margins": 0.01846313, "logps/rejected": -0.54638672, "logps/chosen": -0.36157227, "logits/rejected": -0.4017334, "logits/chosen": -0.26135254, "nll_loss": 0.36132812, "log_odds_ratio": -0.49243164, "log_odds_chosen": 0.55102539, "epoch": 0.33687943, "global_step/max_steps": "95/846", "percentage": "11.23%", "elapsed_time": "7h 54m 37s", "remaining_time": "2d 14h 32m 5s"}
-{"loss": 0.38259888, "grad_norm": 0.18847355, "learning_rate": 4.928e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003333, "rewards/chosen": -0.02822876, "rewards/rejected": -0.05664062, "rewards/accuracies": 1.0, "rewards/margins": 0.02835083, "logps/rejected": -0.56689453, "logps/chosen": -0.28198242, "logits/rejected": -0.484375, "logits/chosen": -0.41503906, "nll_loss": 0.2824707, "log_odds_ratio": -0.42407227, "log_odds_chosen": 0.76318359, "epoch": 0.34042553, "global_step/max_steps": "96/846", "percentage": "11.35%", "elapsed_time": "7h 59m 49s", "remaining_time": "2d 14h 28m 39s"}
-{"loss": 0.42056274, "grad_norm": 0.36645204, "learning_rate": 4.921e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.00334, "rewards/chosen": -0.02456665, "rewards/rejected": -0.03314209, "rewards/accuracies": 0.5, "rewards/margins": 0.00857544, "logps/rejected": -0.33178711, "logps/chosen": -0.24560547, "logits/rejected": -0.44335938, "logits/chosen": -0.57373047, "nll_loss": 0.24560547, "log_odds_ratio": -0.60205078, "log_odds_chosen": 0.26171875, "epoch": 0.34397163, "global_step/max_steps": "97/846", "percentage": "11.47%", "elapsed_time": "8h 3m 41s", "remaining_time": "2d 14h 14m 53s"}
-{"loss": 0.39572144, "grad_norm": 0.23865071, "learning_rate": 4.915e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003351, "rewards/chosen": -0.02484131, "rewards/rejected": -0.02685547, "rewards/accuracies": 0.5, "rewards/margins": 0.00201416, "logps/rejected": -0.26904297, "logps/chosen": -0.24829102, "logits/rejected": -0.47143555, "logits/chosen": -0.57226562, "nll_loss": 0.24829102, "log_odds_ratio": -0.68017578, "log_odds_chosen": 0.06982422, "epoch": 0.34751773, "global_step/max_steps": "98/846", "percentage": "11.58%", "elapsed_time": "8h 7m 5s", "remaining_time": "2d 13h 57m 45s"}
-{"loss": 0.43307495, "grad_norm": 0.27562168, "learning_rate": 4.908e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003345, "rewards/chosen": -0.03710938, "rewards/rejected": -0.11102295, "rewards/accuracies": 1.0, "rewards/margins": 0.07391357, "logps/rejected": -1.11083984, "logps/chosen": -0.37060547, "logits/rejected": -0.36669922, "logits/chosen": -0.35742188, "nll_loss": 0.37133789, "log_odds_ratio": -0.27697754, "log_odds_chosen": 1.44042969, "epoch": 0.35106383, "global_step/max_steps": "99/846", "percentage": "11.70%", "elapsed_time": "8h 13m 3s", "remaining_time": "2d 14h 0m 24s"}
-{"loss": 0.41339111, "grad_norm": 0.1348592, "learning_rate": 4.901e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003353, "rewards/chosen": -0.03439331, "rewards/rejected": -0.0640564, "rewards/accuracies": 0.5, "rewards/margins": 0.02960205, "logps/rejected": -0.64135742, "logps/chosen": -0.34448242, "logits/rejected": -0.21875, "logits/chosen": -0.29101562, "nll_loss": 0.3449707, "log_odds_ratio": -0.57702637, "log_odds_chosen": 0.53808594, "epoch": 0.35460993, "global_step/max_steps": "100/846", "percentage": "11.82%", "elapsed_time": "8h 16m 50s", "remaining_time": "2d 13h 46m 23s"}
-{"eval_loss": 0.45620871, "eval_runtime": 567.4928, "eval_samples_per_second": 0.492, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04142718, "eval_rewards/rejected": -0.08127441, "eval_rewards/accuracies": 0.5714286, "eval_rewards/margins": 0.03992048, "eval_logps/rejected": -0.81233257, "eval_logps/chosen": -0.41453683, "eval_logits/rejected": -0.36364397, "eval_logits/chosen": -0.48236609, "eval_nll_loss": 0.41456473, "eval_log_odds_ratio": -0.57034391, "eval_log_odds_chosen": 0.72396761, "epoch": 0.35460993, "global_step/max_steps": "100/846", "percentage": "11.82%", "elapsed_time": "8h 26m 17s", "remaining_time": "2d 14h 56m 56s"}
-{"loss": 0.39227295, "grad_norm": 0.28379938, "learning_rate": 4.895e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003295, "rewards/chosen": -0.03259277, "rewards/rejected": -0.05023193, "rewards/accuracies": 0.25, "rewards/margins": 0.01763916, "logps/rejected": -0.50292969, "logps/chosen": -0.32568359, "logits/rejected": -0.31933594, "logits/chosen": -0.75146484, "nll_loss": 0.32641602, "log_odds_ratio": -0.74023438, "log_odds_chosen": 0.16308594, "epoch": 0.35815603, "global_step/max_steps": "101/846", "percentage": "11.94%", "elapsed_time": "8h 30m 32s", "remaining_time": "2d 14h 45m 49s"}
-{"loss": 0.35632324, "grad_norm": 0.12056512, "learning_rate": 4.888e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003314, "rewards/chosen": -0.03285217, "rewards/rejected": -0.05847168, "rewards/accuracies": 0.75, "rewards/margins": 0.02557373, "logps/rejected": -0.58398438, "logps/chosen": -0.32861328, "logits/rejected": -0.52197266, "logits/chosen": -0.54541016, "nll_loss": 0.32763672, "log_odds_ratio": -0.6184082, "log_odds_chosen": 0.52148438, "epoch": 0.36170213, "global_step/max_steps": "102/846", "percentage": "12.06%", "elapsed_time": "8h 32m 38s", "remaining_time": "2d 14h 19m 17s"}
-{"loss": 0.4430542, "grad_norm": 0.17634697, "learning_rate": 4.882e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003316, "rewards/chosen": -0.02999878, "rewards/rejected": -0.03915405, "rewards/accuracies": 0.75, "rewards/margins": 0.00915527, "logps/rejected": -0.39208984, "logps/chosen": -0.30004883, "logits/rejected": -0.421875, "logits/chosen": -0.3815918, "nll_loss": 0.30029297, "log_odds_ratio": -0.60009766, "log_odds_chosen": 0.24291992, "epoch": 0.36524823, "global_step/max_steps": "103/846", "percentage": "12.17%", "elapsed_time": "8h 37m 25s", "remaining_time": "2d 14h 12m 30s"}
-{"loss": 0.40988159, "grad_norm": 0.14404099, "learning_rate": 4.875e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003326, "rewards/chosen": -0.03405762, "rewards/rejected": -0.03329468, "rewards/accuracies": 0.5, "rewards/margins": -0.00076294, "logps/rejected": -0.33251953, "logps/chosen": -0.34033203, "logits/rejected": -0.43579102, "logits/chosen": -0.68164062, "nll_loss": 0.34033203, "log_odds_ratio": -0.859375, "log_odds_chosen": -0.14233398, "epoch": 0.36879433, "global_step/max_steps": "104/846", "percentage": "12.29%", "elapsed_time": "8h 40m 50s", "remaining_time": "2d 13h 55m 59s"}
-{"loss": 0.44567871, "grad_norm": 0.1884243, "learning_rate": 4.869e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003331, "rewards/chosen": -0.05502319, "rewards/rejected": -0.09674072, "rewards/accuracies": 0.75, "rewards/margins": 0.04177856, "logps/rejected": -0.96728516, "logps/chosen": -0.55053711, "logits/rejected": -0.31591797, "logits/chosen": -0.31408691, "nll_loss": 0.55053711, "log_odds_ratio": -0.57458496, "log_odds_chosen": 0.61743164, "epoch": 0.37234043, "global_step/max_steps": "105/846", "percentage": "12.41%", "elapsed_time": "8h 45m 5s", "remaining_time": "2d 13h 45m 40s"}
-{"loss": 0.36495972, "grad_norm": 0.12240411, "learning_rate": 4.862e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003332, "rewards/chosen": -0.03042603, "rewards/rejected": -0.08117676, "rewards/accuracies": 0.5, "rewards/margins": 0.05081177, "logps/rejected": -0.81103516, "logps/chosen": -0.30371094, "logits/rejected": -0.22952271, "logits/chosen": -0.62084961, "nll_loss": 0.3034668, "log_odds_ratio": -0.72888184, "log_odds_chosen": 0.68164062, "epoch": 0.37588652, "global_step/max_steps": "106/846", "percentage": "12.53%", "elapsed_time": "8h 49m 58s", "remaining_time": "2d 13h 39m 52s"}
-{"loss": 0.42605591, "grad_norm": 0.27723852, "learning_rate": 4.855e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.003335, "rewards/chosen": -0.03192139, "rewards/rejected": -0.04519653, "rewards/accuracies": 0.75, "rewards/margins": 0.01321411, "logps/rejected": -0.45141602, "logps/chosen": -0.31933594, "logits/rejected": -0.38793945, "logits/chosen": -0.42626953, "nll_loss": 0.31933594, "log_odds_ratio": -0.67114258, "log_odds_chosen": 0.20410156, "epoch": 0.37943262, "global_step/max_steps": "107/846", "percentage": "12.65%", "elapsed_time": "8h 54m 31s", "remaining_time": "2d 13h 31m 45s"}
-{"loss": 0.43215942, "grad_norm": 0.21334814, "learning_rate": 4.849e-05, "memory(GiB)": 132.98, "train_speed(iter/s)": 0.00333, "rewards/chosen": -0.04840088, "rewards/rejected": -0.06329346, "rewards/accuracies": 0.5, "rewards/margins": 0.01483154, "logps/rejected": -0.63256836, "logps/chosen": -0.484375, "logits/rejected": -0.3046875, "logits/chosen": -0.47363281, "nll_loss": 0.48535156, "log_odds_ratio": -0.76489258, "log_odds_chosen": 0.22314453, "epoch": 0.38297872, "global_step/max_steps": "108/846", "percentage": "12.77%", "elapsed_time": "9h 0m 11s", "remaining_time": "2d 13h 31m 21s"}
-{"loss": 0.39370728, "grad_norm": 0.13373983, "learning_rate": 4.842e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003328, "rewards/chosen": -0.03863525, "rewards/rejected": -0.08886719, "rewards/accuracies": 0.75, "rewards/margins": 0.0501709, "logps/rejected": -0.88818359, "logps/chosen": -0.38623047, "logits/rejected": -0.45410156, "logits/chosen": -0.28271484, "nll_loss": 0.38623047, "log_odds_ratio": -0.53930664, "log_odds_chosen": 0.86914062, "epoch": 0.38652482, "global_step/max_steps": "109/846", "percentage": "12.88%", "elapsed_time": "9h 5m 32s", "remaining_time": "2d 13h 28m 42s"}
-{"loss": 0.38543701, "grad_norm": 0.35314423, "learning_rate": 4.836e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003337, "rewards/chosen": -0.03192139, "rewards/rejected": -0.0549469, "rewards/accuracies": 0.5, "rewards/margins": 0.02294922, "logps/rejected": -0.54992676, "logps/chosen": -0.31933594, "logits/rejected": -0.18151855, "logits/chosen": -0.5369873, "nll_loss": 0.3190918, "log_odds_ratio": -0.69104004, "log_odds_chosen": 0.38671875, "epoch": 0.39007092, "global_step/max_steps": "110/846", "percentage": "13.00%", "elapsed_time": "9h 9m 6s", "remaining_time": "2d 13h 14m 0s"}
-{"eval_loss": 0.42397514, "eval_runtime": 568.2834, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.04015939, "eval_rewards/rejected": -0.09039132, "eval_rewards/accuracies": 0.5714286, "eval_rewards/margins": 0.05023368, "eval_logps/rejected": -0.90404576, "eval_logps/chosen": -0.40133929, "eval_logits/rejected": -0.27489188, "eval_logits/chosen": -0.40006277, "eval_nll_loss": 0.40170202, "eval_log_odds_ratio": -0.54534388, "eval_log_odds_chosen": 0.8895089, "epoch": 0.39007092, "global_step/max_steps": "110/846", "percentage": "13.00%", "elapsed_time": "9h 18m 34s", "remaining_time": "2d 14h 17m 22s"}
-{"loss": 0.40066528, "grad_norm": 0.31577688, "learning_rate": 4.829e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003276, "rewards/chosen": -0.03585815, "rewards/rejected": -0.07455444, "rewards/accuracies": 0.5, "rewards/margins": 0.03875732, "logps/rejected": -0.74389648, "logps/chosen": -0.35864258, "logits/rejected": -0.28894043, "logits/chosen": -0.38806152, "nll_loss": 0.35791016, "log_odds_ratio": -0.58721924, "log_odds_chosen": 0.69628906, "epoch": 0.39361702, "global_step/max_steps": "111/846", "percentage": "13.12%", "elapsed_time": "9h 24m 28s", "remaining_time": "2d 14h 17m 45s"}
-{"loss": 0.43609619, "grad_norm": 0.14331454, "learning_rate": 4.823e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003273, "rewards/chosen": -0.02960205, "rewards/rejected": -0.13140869, "rewards/accuracies": 1.0, "rewards/margins": 0.10192871, "logps/rejected": -1.31494141, "logps/chosen": -0.29614258, "logits/rejected": -0.2755127, "logits/chosen": -0.26312256, "nll_loss": 0.29589844, "log_odds_ratio": -0.23156738, "log_odds_chosen": 1.83959961, "epoch": 0.39716312, "global_step/max_steps": "112/846", "percentage": "13.24%", "elapsed_time": "9h 30m 1s", "remaining_time": "2d 14h 15m 39s"}
-{"loss": 0.39654541, "grad_norm": 0.21657935, "learning_rate": 4.816e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003285, "rewards/chosen": -0.03845215, "rewards/rejected": -0.07147217, "rewards/accuracies": 0.5, "rewards/margins": 0.03308105, "logps/rejected": -0.71533203, "logps/chosen": -0.38427734, "logits/rejected": -0.51269531, "logits/chosen": -0.60058594, "nll_loss": 0.38378906, "log_odds_ratio": -0.66967773, "log_odds_chosen": 0.41503906, "epoch": 0.40070922, "global_step/max_steps": "113/846", "percentage": "13.36%", "elapsed_time": "9h 33m 3s", "remaining_time": "2d 13h 57m 13s"}
-{"loss": 0.43988037, "grad_norm": 0.17497085, "learning_rate": 4.809e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.00329, "rewards/chosen": -0.02536011, "rewards/rejected": -0.05245972, "rewards/accuracies": 1.0, "rewards/margins": 0.02713013, "logps/rejected": -0.52441406, "logps/chosen": -0.25341797, "logits/rejected": -0.56201172, "logits/chosen": -0.37255859, "nll_loss": 0.25317383, "log_odds_ratio": -0.37939453, "log_odds_chosen": 0.82861328, "epoch": 0.40425532, "global_step/max_steps": "114/846", "percentage": "13.48%", "elapsed_time": "9h 37m 15s", "remaining_time": "2d 13h 46m 38s"}
-{"loss": 0.4364624, "grad_norm": 0.19731806, "learning_rate": 4.803e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003285, "rewards/chosen": -0.03411865, "rewards/rejected": -0.05270386, "rewards/accuracies": 0.75, "rewards/margins": 0.01858521, "logps/rejected": -0.52587891, "logps/chosen": -0.34179688, "logits/rejected": -0.28845215, "logits/chosen": -0.24676514, "nll_loss": 0.34228516, "log_odds_ratio": -0.55419922, "log_odds_chosen": 0.50439453, "epoch": 0.40780142, "global_step/max_steps": "115/846", "percentage": "13.59%", "elapsed_time": "9h 43m 6s", "remaining_time": "2d 13h 46m 34s"}
-{"loss": 0.36676025, "grad_norm": 0.16225766, "learning_rate": 4.796e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003293, "rewards/chosen": -0.02584839, "rewards/rejected": -0.15896606, "rewards/accuracies": 0.75, "rewards/margins": 0.13305664, "logps/rejected": -1.58740234, "logps/chosen": -0.25830078, "logits/rejected": -0.32080078, "logits/chosen": -0.29064941, "nll_loss": 0.25805664, "log_odds_ratio": -0.29370117, "log_odds_chosen": 2.08496094, "epoch": 0.41134752, "global_step/max_steps": "116/846", "percentage": "13.71%", "elapsed_time": "9h 46m 45s", "remaining_time": "2d 13h 32m 34s"}
-{"loss": 0.37265015, "grad_norm": 0.13713335, "learning_rate": 4.79e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.0033, "rewards/chosen": -0.03543091, "rewards/rejected": -0.04107666, "rewards/accuracies": 0.5, "rewards/margins": 0.00564575, "logps/rejected": -0.41088867, "logps/chosen": -0.35400391, "logits/rejected": -0.50610352, "logits/chosen": -0.66552734, "nll_loss": 0.35400391, "log_odds_ratio": -0.7277832, "log_odds_chosen": 0.10253906, "epoch": 0.41489362, "global_step/max_steps": "117/846", "percentage": "13.83%", "elapsed_time": "9h 50m 38s", "remaining_time": "2d 13h 20m 9s"}
-{"loss": 0.39312744, "grad_norm": 0.14967194, "learning_rate": 4.783e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003307, "rewards/chosen": -0.0256958, "rewards/rejected": -0.08746338, "rewards/accuracies": 0.75, "rewards/margins": 0.06167603, "logps/rejected": -0.87597656, "logps/chosen": -0.25708008, "logits/rejected": -0.46923828, "logits/chosen": -0.31445312, "nll_loss": 0.25634766, "log_odds_ratio": -0.41497803, "log_odds_chosen": 1.15649414, "epoch": 0.41843972, "global_step/max_steps": "118/846", "percentage": "13.95%", "elapsed_time": "9h 54m 25s", "remaining_time": "2d 13h 7m 15s"}
-{"loss": 0.37322998, "grad_norm": 0.11315849, "learning_rate": 4.777e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003303, "rewards/chosen": -0.02914429, "rewards/rejected": -0.06541443, "rewards/accuracies": 0.25, "rewards/margins": 0.03622437, "logps/rejected": -0.65368652, "logps/chosen": -0.29174805, "logits/rejected": -0.4230957, "logits/chosen": -0.60546875, "nll_loss": 0.29223633, "log_odds_ratio": -0.75622559, "log_odds_chosen": 0.35253906, "epoch": 0.42198582, "global_step/max_steps": "119/846", "percentage": "14.07%", "elapsed_time": "10h 0m 6s", "remaining_time": "2d 13h 6m 14s"}
-{"loss": 0.37789917, "grad_norm": 0.1166358, "learning_rate": 4.77e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003305, "rewards/chosen": -0.04443359, "rewards/rejected": -0.11999512, "rewards/accuracies": 1.0, "rewards/margins": 0.07550049, "logps/rejected": -1.20019531, "logps/chosen": -0.4440918, "logits/rejected": -0.24209595, "logits/chosen": -0.18579102, "nll_loss": 0.4440918, "log_odds_ratio": -0.31967163, "log_odds_chosen": 1.44921875, "epoch": 0.42553191, "global_step/max_steps": "120/846", "percentage": "14.18%", "elapsed_time": "10h 4m 53s", "remaining_time": "2d 12h 59m 36s"}
-{"eval_loss": 0.41283742, "eval_runtime": 568.1176, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.03860386, "eval_rewards/rejected": -0.12836914, "eval_rewards/accuracies": 0.65714288, "eval_rewards/margins": 0.08977748, "eval_logps/rejected": -1.28404021, "eval_logps/chosen": -0.38635603, "eval_logits/rejected": -0.39749581, "eval_logits/chosen": -0.51142579, "eval_nll_loss": 0.38696986, "eval_log_odds_ratio": -0.48230678, "eval_log_odds_chosen": 1.40002787, "epoch": 0.42553191, "global_step/max_steps": "120/846", "percentage": "14.18%", "elapsed_time": "10h 14m 21s", "remaining_time": "2d 13h 56m 53s"}
-{"loss": 0.48397827, "grad_norm": 0.21679665, "learning_rate": 4.763e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003256, "rewards/chosen": -0.05886841, "rewards/rejected": -0.1071167, "rewards/accuracies": 0.75, "rewards/margins": 0.04824829, "logps/rejected": -1.07128906, "logps/chosen": -0.58837891, "logits/rejected": -0.21166992, "logits/chosen": -0.40551758, "nll_loss": 0.58740234, "log_odds_ratio": -0.41650391, "log_odds_chosen": 0.80371094, "epoch": 0.42907801, "global_step/max_steps": "121/846", "percentage": "14.30%", "elapsed_time": "10h 19m 8s", "remaining_time": "2d 13h 49m 43s"}
-{"loss": 0.40228271, "grad_norm": 0.12474387, "learning_rate": 4.757e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003267, "rewards/chosen": -0.03393555, "rewards/rejected": -0.14855957, "rewards/accuracies": 1.0, "rewards/margins": 0.11450195, "logps/rejected": -1.48730469, "logps/chosen": -0.33911133, "logits/rejected": -0.69921875, "logits/chosen": -0.65087891, "nll_loss": 0.33935547, "log_odds_ratio": -0.19784546, "log_odds_chosen": 1.97412109, "epoch": 0.43262411, "global_step/max_steps": "122/846", "percentage": "14.42%", "elapsed_time": "10h 22m 5s", "remaining_time": "2d 13h 31m 46s"}
-{"loss": 0.35971069, "grad_norm": 0.14296877, "learning_rate": 4.75e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003272, "rewards/chosen": -0.03463745, "rewards/rejected": -0.12670898, "rewards/accuracies": 0.75, "rewards/margins": 0.09222412, "logps/rejected": -1.26757812, "logps/chosen": -0.34570312, "logits/rejected": -0.37158203, "logits/chosen": -0.47631836, "nll_loss": 0.34570312, "log_odds_ratio": -0.29193115, "log_odds_chosen": 1.56689453, "epoch": 0.43617021, "global_step/max_steps": "123/846", "percentage": "14.54%", "elapsed_time": "10h 26m 13s", "remaining_time": "2d 13h 20m 57s"}
-{"loss": 0.41882324, "grad_norm": 0.52877933, "learning_rate": 4.744e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003279, "rewards/chosen": -0.0362854, "rewards/rejected": -0.11141968, "rewards/accuracies": 0.75, "rewards/margins": 0.07507324, "logps/rejected": -1.11401367, "logps/chosen": -0.36279297, "logits/rejected": -0.37915039, "logits/chosen": -0.51855469, "nll_loss": 0.36328125, "log_odds_ratio": -0.57556152, "log_odds_chosen": 1.17773438, "epoch": 0.43971631, "global_step/max_steps": "124/846", "percentage": "14.66%", "elapsed_time": "10h 30m 1s", "remaining_time": "2d 13h 8m 22s"}
-{"loss": 0.31719971, "grad_norm": 0.09337451, "learning_rate": 4.737e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.00329, "rewards/chosen": -0.02603149, "rewards/rejected": -0.12472534, "rewards/accuracies": 0.75, "rewards/margins": 0.09890747, "logps/rejected": -1.24829102, "logps/chosen": -0.25976562, "logits/rejected": -0.46118164, "logits/chosen": -0.59179688, "nll_loss": 0.26000977, "log_odds_ratio": -0.50631714, "log_odds_chosen": 1.54296875, "epoch": 0.44326241, "global_step/max_steps": "125/846", "percentage": "14.78%", "elapsed_time": "10h 33m 1s", "remaining_time": "2d 12h 51m 14s"}
-{"loss": 0.41064453, "grad_norm": 0.16397984, "learning_rate": 4.731e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003293, "rewards/chosen": -0.06164551, "rewards/rejected": -0.4551239, "rewards/accuracies": 0.75, "rewards/margins": 0.39294434, "logps/rejected": -4.54248047, "logps/chosen": -0.61645508, "logits/rejected": -0.34417725, "logits/chosen": -0.4705658, "nll_loss": 0.61450195, "log_odds_ratio": -0.52001953, "log_odds_chosen": 4.28515625, "epoch": 0.44680851, "global_step/max_steps": "126/846", "percentage": "14.89%", "elapsed_time": "10h 37m 31s", "remaining_time": "2d 12h 43m 1s"}
-{"loss": 0.41320801, "grad_norm": 0.1379481, "learning_rate": 4.724e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003291, "rewards/chosen": -0.03250122, "rewards/rejected": -0.15670776, "rewards/accuracies": 0.5, "rewards/margins": 0.12405396, "logps/rejected": -1.56494141, "logps/chosen": -0.32446289, "logits/rejected": -0.36669922, "logits/chosen": -0.63317871, "nll_loss": 0.32495117, "log_odds_ratio": -0.48278809, "log_odds_chosen": 1.78759766, "epoch": 0.45035461, "global_step/max_steps": "127/846", "percentage": "15.01%", "elapsed_time": "10h 42m 50s", "remaining_time": "2d 12h 39m 20s"}
-{"loss": 0.3855896, "grad_norm": 0.20181563, "learning_rate": 4.717e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003298, "rewards/chosen": -0.02474976, "rewards/rejected": -0.09185791, "rewards/accuracies": 1.0, "rewards/margins": 0.06707764, "logps/rejected": -0.91845703, "logps/chosen": -0.24755859, "logits/rejected": -0.37646484, "logits/chosen": -0.39111328, "nll_loss": 0.24682617, "log_odds_ratio": -0.22546387, "log_odds_chosen": 1.60351562, "epoch": 0.45390071, "global_step/max_steps": "128/846", "percentage": "15.13%", "elapsed_time": "10h 46m 33s", "remaining_time": "2d 12h 26m 45s"}
-{"loss": 0.36123657, "grad_norm": 0.19869718, "learning_rate": 4.711e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003305, "rewards/chosen": -0.03344727, "rewards/rejected": -0.08837891, "rewards/accuracies": 0.5, "rewards/margins": 0.05499268, "logps/rejected": -0.88378906, "logps/chosen": -0.33422852, "logits/rejected": -0.38818359, "logits/chosen": -0.60449219, "nll_loss": 0.33422852, "log_odds_ratio": -0.68121338, "log_odds_chosen": 0.76708984, "epoch": 0.45744681, "global_step/max_steps": "129/846", "percentage": "15.25%", "elapsed_time": "10h 50m 17s", "remaining_time": "2d 12h 14m 22s"}
-{"loss": 0.37228394, "grad_norm": 0.11339411, "learning_rate": 4.704e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003311, "rewards/chosen": -0.03164673, "rewards/rejected": -0.03961182, "rewards/accuracies": 0.75, "rewards/margins": 0.00796509, "logps/rejected": -0.39624023, "logps/chosen": -0.31665039, "logits/rejected": -0.38671875, "logits/chosen": -0.43017578, "nll_loss": 0.31665039, "log_odds_ratio": -0.60546875, "log_odds_chosen": 0.26025391, "epoch": 0.46099291, "global_step/max_steps": "130/846", "percentage": "15.37%", "elapsed_time": "10h 54m 11s", "remaining_time": "2d 12h 3m 7s"}
-{"eval_loss": 0.38319752, "eval_runtime": 568.3988, "eval_samples_per_second": 0.491, "eval_steps_per_second": 0.062, "eval_rewards/chosen": -0.03471157, "eval_rewards/rejected": -0.34204799, "eval_rewards/accuracies": 0.77142859, "eval_rewards/margins": 0.30736259, "eval_logps/rejected": -3.4203124, "eval_logps/chosen": -0.34718192, "eval_logits/rejected": -0.40456194, "eval_logits/chosen": -0.52040666, "eval_nll_loss": 0.34737724, "eval_log_odds_ratio": -0.39023611, "eval_log_odds_chosen": 3.7414341, "epoch": 0.46099291, "global_step/max_steps": "130/846", "percentage": "15.37%", "elapsed_time": "11h 3m 40s", "remaining_time": "2d 12h 55m 18s"}
-{"loss": 0.3994751, "grad_norm": 0.21607526, "learning_rate": 4.698e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003263, "rewards/chosen": -0.03521729, "rewards/rejected": -0.62878418, "rewards/accuracies": 1.0, "rewards/margins": 0.59417725, "logps/rejected": -6.29785156, "logps/chosen": -0.35205078, "logits/rejected": -0.53710938, "logits/chosen": -0.4921875, "nll_loss": 0.35107422, "log_odds_ratio": -0.13183594, "log_odds_chosen": 6.92041016, "epoch": 0.46453901, "global_step/max_steps": "131/846", "percentage": "15.48%", "elapsed_time": "11h 8m 45s", "remaining_time": "2d 12h 50m 5s"}
-{"loss": 0.42602539, "grad_norm": 0.46306911, "learning_rate": 4.691e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003268, "rewards/chosen": -0.03283691, "rewards/rejected": -0.86950684, "rewards/accuracies": 1.0, "rewards/margins": 0.83569336, "logps/rejected": -8.69921875, "logps/chosen": -0.32861328, "logits/rejected": -0.50488281, "logits/chosen": -0.58447266, "nll_loss": 0.32861328, "log_odds_ratio": -0.12402344, "log_odds_chosen": 9.47021484, "epoch": 0.46808511, "global_step/max_steps": "132/846", "percentage": "15.60%", "elapsed_time": "11h 12m 50s", "remaining_time": "2d 12h 39m 25s"}
-{"loss": 0.38085938, "grad_norm": 0.19084617, "learning_rate": 4.685e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003276, "rewards/chosen": -0.0513916, "rewards/rejected": -0.8175354, "rewards/accuracies": 0.75, "rewards/margins": 0.7661438, "logps/rejected": -8.18359375, "logps/chosen": -0.51416016, "logits/rejected": -0.4375, "logits/chosen": -0.56396484, "nll_loss": 0.51513672, "log_odds_ratio": -0.40136719, "log_odds_chosen": 8.17089844, "epoch": 0.47163121, "global_step/max_steps": "133/846", "percentage": "15.72%", "elapsed_time": "11h 16m 18s", "remaining_time": "2d 12h 25m 36s"}
-{"loss": 0.35171509, "grad_norm": 0.08958192, "learning_rate": 4.678e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003291, "rewards/chosen": -0.04199219, "rewards/rejected": -0.11065674, "rewards/accuracies": 0.5, "rewards/margins": 0.06860352, "logps/rejected": -1.10644531, "logps/chosen": -0.41943359, "logits/rejected": -0.43115234, "logits/chosen": -0.59423828, "nll_loss": 0.41943359, "log_odds_ratio": -0.6411438, "log_odds_chosen": 0.95214844, "epoch": 0.4751773, "global_step/max_steps": "134/846", "percentage": "15.84%", "elapsed_time": "11h 18m 24s", "remaining_time": "2d 12h 4m 41s"}
-{"loss": 0.38513184, "grad_norm": 0.09886587, "learning_rate": 4.671e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003297, "rewards/chosen": -0.03173828, "rewards/rejected": -0.07641602, "rewards/accuracies": 0.75, "rewards/margins": 0.0446167, "logps/rejected": -0.76293945, "logps/chosen": -0.31762695, "logits/rejected": -0.31774902, "logits/chosen": -0.3684082, "nll_loss": 0.31689453, "log_odds_ratio": -0.63311768, "log_odds_chosen": 0.62011719, "epoch": 0.4787234, "global_step/max_steps": "135/846", "percentage": "15.96%", "elapsed_time": "11h 22m 5s", "remaining_time": "2d 11h 52m 22s"}
-{"loss": 0.34994507, "grad_norm": 0.12538408, "learning_rate": 4.665e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003301, "rewards/chosen": -0.04974365, "rewards/rejected": -0.13781738, "rewards/accuracies": 1.0, "rewards/margins": 0.0880127, "logps/rejected": -1.37890625, "logps/chosen": -0.49755859, "logits/rejected": -0.40209961, "logits/chosen": -0.37643433, "nll_loss": 0.49804688, "log_odds_ratio": -0.21289062, "log_odds_chosen": 1.56445312, "epoch": 0.4822695, "global_step/max_steps": "136/846", "percentage": "16.08%", "elapsed_time": "11h 26m 26s", "remaining_time": "2d 11h 43m 36s"}
-{"loss": 0.39938354, "grad_norm": 0.15636803, "learning_rate": 4.658e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003306, "rewards/chosen": -0.03649902, "rewards/rejected": -0.06018066, "rewards/accuracies": 0.5, "rewards/margins": 0.02368164, "logps/rejected": -0.6015625, "logps/chosen": -0.36474609, "logits/rejected": -0.44482422, "logits/chosen": -0.59765625, "nll_loss": 0.36425781, "log_odds_ratio": -0.54370117, "log_odds_chosen": 0.50878906, "epoch": 0.4858156, "global_step/max_steps": "137/846", "percentage": "16.19%", "elapsed_time": "11h 30m 26s", "remaining_time": "2d 11h 33m 11s"}
-{"loss": 0.43347168, "grad_norm": 0.18616471, "learning_rate": 4.652e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003309, "rewards/chosen": -0.03619385, "rewards/rejected": -0.1854248, "rewards/accuracies": 1.0, "rewards/margins": 0.14916992, "logps/rejected": -1.85449219, "logps/chosen": -0.36230469, "logits/rejected": -0.36791992, "logits/chosen": -0.34692383, "nll_loss": 0.36230469, "log_odds_ratio": -0.22433472, "log_odds_chosen": 2.20703125, "epoch": 0.4893617, "global_step/max_steps": "138/846", "percentage": "16.31%", "elapsed_time": "11h 34m 49s", "remaining_time": "2d 11h 24m 43s"}
-{"loss": 0.41183472, "grad_norm": 0.23319234, "learning_rate": 4.645e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.003316, "rewards/chosen": -0.03393555, "rewards/rejected": -1.46806335, "rewards/accuracies": 0.75, "rewards/margins": 1.43373108, "logps/rejected": -14.67285156, "logps/chosen": -0.33935547, "logits/rejected": -0.36621094, "logits/chosen": -0.41186523, "nll_loss": 0.33911133, "log_odds_ratio": -0.29882812, "log_odds_chosen": 15.13476562, "epoch": 0.4929078, "global_step/max_steps": "139/846", "percentage": "16.43%", "elapsed_time": "11h 38m 24s", "remaining_time": "2d 11h 12m 19s"}
-{"loss": 0.34051514, "grad_norm": 0.1030272, "learning_rate": 4.639e-05, "memory(GiB)": 132.99, "train_speed(iter/s)": 0.00332, "rewards/chosen": -0.02624512, "rewards/rejected": -0.7204895, "rewards/accuracies": 0.5, "rewards/margins": 0.69430542, "logps/rejected": -7.20874023, "logps/chosen": -0.26245117, "logits/rejected": -0.47607422, "logits/chosen": -0.53564453, "nll_loss": 0.26318359, "log_odds_ratio": -0.47558594, "log_odds_chosen": 7.64453125, "epoch": 0.4964539, "global_step/max_steps": "140/846", "percentage": "16.55%", "elapsed_time": "11h 42m 35s", "remaining_time": "2d 11h 3m 2s"}
-{"eval_loss": 0.37720513, "eval_runtime": 569.7455, "eval_samples_per_second": 0.49, "eval_steps_per_second": 0.061, "eval_rewards/chosen": -0.03427734, "eval_rewards/rejected": -0.82667762, "eval_rewards/accuracies": 0.74285716, "eval_rewards/margins": 0.79263741, "eval_logps/rejected": -8.26568127, "eval_logps/chosen": -0.34282923, "eval_logits/rejected": -0.46145368, "eval_logits/chosen": -0.57289344, "eval_nll_loss": 0.34315011, "eval_log_odds_ratio": -0.35142821, "eval_log_odds_chosen": 8.68630028, "epoch": 0.4964539, "global_step/max_steps": "140/846", "percentage": "16.55%", "elapsed_time": "11h 52m 4s", "remaining_time": "2d 11h 50m 55s"}
+{"loss": 0.71170044, "grad_norm": 0.44154316, "learning_rate": 3.9e-07, "memory(GiB)": 66.67, "train_speed(iter/s)": 0.005, "rewards/chosen": -0.06085205, "rewards/rejected": -0.02545166, "rewards/accuracies": 0.0, "rewards/margins": -0.03536987, "logps/rejected": -0.25463867, "logps/chosen": -0.60742188, "logits/rejected": -0.55371094, "logits/chosen": -0.92871094, "nll_loss": 0.60791016, "log_odds_ratio": -1.3359375, "log_odds_chosen": -0.95947266, "epoch": 0.00234192, "global_step/max_steps": "1/1281", "percentage": "0.08%", "elapsed_time": "3m 4s", "remaining_time": "2d 17h 35m 26s"}
+{"loss": 0.71148682, "grad_norm": 0.30638629, "learning_rate": 7.8e-07, "memory(GiB)": 66.67, "train_speed(iter/s)": 0.006083, "rewards/chosen": -0.04333496, "rewards/rejected": -0.20187378, "rewards/accuracies": 0.25, "rewards/margins": 0.15856934, "logps/rejected": -2.02270508, "logps/chosen": -0.43359375, "logits/rejected": -0.6796875, "logits/chosen": -0.78808594, "nll_loss": 0.43457031, "log_odds_ratio": -0.99414062, "log_odds_chosen": 1.50390625, "epoch": 0.00468384, "global_step/max_steps": "2/1281", "percentage": "0.16%", "elapsed_time": "5m 13s", "remaining_time": "2d 7h 38m 39s"}
+{"loss": 0.72467041, "grad_norm": 0.30521369, "learning_rate": 1.16e-06, "memory(GiB)": 85.48, "train_speed(iter/s)": 0.005209, "rewards/chosen": -0.06536865, "rewards/rejected": -0.03079224, "rewards/accuracies": 0.25, "rewards/margins": -0.03460693, "logps/rejected": -0.30834961, "logps/chosen": -0.65478516, "logits/rejected": -0.60351562, "logits/chosen": -0.83789062, "nll_loss": 0.65429688, "log_odds_ratio": -1.29882812, "log_odds_chosen": -0.91894531, "epoch": 0.00702576, "global_step/max_steps": "3/1281", "percentage": "0.23%", "elapsed_time": "9m 20s", "remaining_time": "2d 18h 19m 4s"}
+{"loss": 0.59896851, "grad_norm": 0.18317574, "learning_rate": 1.55e-06, "memory(GiB)": 85.48, "train_speed(iter/s)": 0.005417, "rewards/chosen": -0.05342102, "rewards/rejected": -0.41574097, "rewards/accuracies": 0.25, "rewards/margins": 0.3621521, "logps/rejected": -4.14990234, "logps/chosen": -0.53442383, "logits/rejected": -0.58691406, "logits/chosen": -0.72314453, "nll_loss": 0.53344727, "log_odds_ratio": -0.99414062, "log_odds_chosen": 3.67822266, "epoch": 0.00936768, "global_step/max_steps": "4/1281", "percentage": "0.31%", "elapsed_time": "12m 2s", "remaining_time": "2d 16h 6m 6s"}
+{"loss": 0.64508057, "grad_norm": 0.18339162, "learning_rate": 1.94e-06, "memory(GiB)": 102.03, "train_speed(iter/s)": 0.005237, "rewards/chosen": -0.03771973, "rewards/rejected": -0.03320312, "rewards/accuracies": 0.25, "rewards/margins": -0.0045166, "logps/rejected": -0.33203125, "logps/chosen": -0.37695312, "logits/rejected": -0.46630859, "logits/chosen": -0.70458984, "nll_loss": 0.37695312, "log_odds_ratio": -0.78222656, "log_odds_chosen": -0.15576172, "epoch": 0.0117096, "global_step/max_steps": "5/1281", "percentage": "0.39%", "elapsed_time": "15m 39s", "remaining_time": "2d 18h 34m 35s"}
+{"loss": 0.58435059, "grad_norm": 0.18781863, "learning_rate": 2.33e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005452, "rewards/chosen": -0.04089355, "rewards/rejected": -0.02549744, "rewards/accuracies": 0.0, "rewards/margins": -0.01539612, "logps/rejected": -0.25512695, "logps/chosen": -0.40942383, "logits/rejected": -0.68115234, "logits/chosen": -0.89648438, "nll_loss": 0.40942383, "log_odds_ratio": -1.06933594, "log_odds_chosen": -0.63867188, "epoch": 0.01405152, "global_step/max_steps": "6/1281", "percentage": "0.47%", "elapsed_time": "18m 5s", "remaining_time": "2d 16h 2m 48s"}
+{"loss": 0.64916992, "grad_norm": 0.19073817, "learning_rate": 2.71e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005398, "rewards/chosen": -0.03863525, "rewards/rejected": -0.03204346, "rewards/accuracies": 0.5, "rewards/margins": -0.0065918, "logps/rejected": -0.32080078, "logps/chosen": -0.38574219, "logits/rejected": -0.57519531, "logits/chosen": -0.7890625, "nll_loss": 0.38720703, "log_odds_ratio": -0.86816406, "log_odds_chosen": -0.29589844, "epoch": 0.01639344, "global_step/max_steps": "7/1281", "percentage": "0.55%", "elapsed_time": "21m 21s", "remaining_time": "2d 16h 46m 8s"}
+{"loss": 0.57540894, "grad_norm": 0.17009707, "learning_rate": 3.1e-06, "memory(GiB)": 117.05, "train_speed(iter/s)": 0.005079, "rewards/chosen": -0.04678345, "rewards/rejected": -0.03186035, "rewards/accuracies": 0.0, "rewards/margins": -0.01489258, "logps/rejected": -0.31835938, "logps/chosen": -0.46826172, "logits/rejected": -0.71386719, "logits/chosen": -0.87988281, "nll_loss": 0.47045898, "log_odds_ratio": -1.01660156, "log_odds_chosen": -0.53295898, "epoch": 0.01873536, "global_step/max_steps": "8/1281", "percentage": "0.62%", "elapsed_time": "25m 59s", "remaining_time": "2d 20h 56m 1s"}
+{"loss": 0.5715332, "grad_norm": 0.14418723, "learning_rate": 3.49e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004862, "rewards/chosen": -0.04602051, "rewards/rejected": -0.03567505, "rewards/accuracies": 0.25, "rewards/margins": -0.01034546, "logps/rejected": -0.35668945, "logps/chosen": -0.46044922, "logits/rejected": -0.97607422, "logits/chosen": -0.87011719, "nll_loss": 0.46044922, "log_odds_ratio": -0.90136719, "log_odds_chosen": -0.31298828, "epoch": 0.02107728, "global_step/max_steps": "9/1281", "percentage": "0.70%", "elapsed_time": "30m 35s", "remaining_time": "3d 0h 3m 57s"}
+{"loss": 0.54727173, "grad_norm": 0.13393623, "learning_rate": 3.88e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004846, "rewards/chosen": -0.03527832, "rewards/rejected": -0.49353027, "rewards/accuracies": 0.25, "rewards/margins": 0.45831299, "logps/rejected": -4.92724609, "logps/chosen": -0.35327148, "logits/rejected": -0.56445312, "logits/chosen": -0.82910156, "nll_loss": 0.35327148, "log_odds_ratio": -0.7265625, "log_odds_chosen": 4.79394531, "epoch": 0.0234192, "global_step/max_steps": "10/1281", "percentage": "0.78%", "elapsed_time": "34m 8s", "remaining_time": "3d 0h 18m 50s"}
+{"eval_loss": 0.66295749, "eval_runtime": 642.7006, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.05507674, "eval_rewards/rejected": -0.09295309, "eval_rewards/accuracies": 0.1509434, "eval_rewards/margins": 0.03781186, "eval_logps/rejected": -0.92890441, "eval_logps/chosen": -0.55074441, "eval_logits/rejected": -0.51498008, "eval_logits/chosen": -0.83470297, "eval_nll_loss": 0.55109447, "eval_log_odds_ratio": -1.0913558, "eval_log_odds_chosen": 0.03414284, "epoch": 0.0234192, "global_step/max_steps": "10/1281", "percentage": "0.78%", "elapsed_time": "44m 50s", "remaining_time": "3d 23h 0m 17s"}
+{"loss": 0.67330933, "grad_norm": 0.26671985, "learning_rate": 4.26e-06, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.003801, "rewards/chosen": -0.06494141, "rewards/rejected": -0.04647827, "rewards/accuracies": 0.0, "rewards/margins": -0.01846313, "logps/rejected": -0.46459961, "logps/chosen": -0.64990234, "logits/rejected": -0.72802734, "logits/chosen": -0.83447266, "nll_loss": 0.65087891, "log_odds_ratio": -0.93164062, "log_odds_chosen": -0.41748047, "epoch": 0.02576112, "global_step/max_steps": "11/1281", "percentage": "0.86%", "elapsed_time": "47m 58s", "remaining_time": "3d 20h 18m 12s"}