Model save

Browse files

Files changed (4) hide show

all_results.json +9 -0
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +2156 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4647196615989924,
+    "train_runtime": 4672.0978,
+    "train_samples": 10466,
+    "train_samples_per_second": 2.24,
+    "train_steps_per_second": 0.28
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.53.3"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4647196615989924,
+    "train_runtime": 4672.0978,
+    "train_samples": 10466,
+    "train_samples_per_second": 2.24,
+    "train_steps_per_second": 0.28
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2156 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1309,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0007639419404125286,
+      "grad_norm": 135.31482947366968,
+      "learning_rate": 0.0,
+      "logits/chosen": -0.1904296875,
+      "logits/rejected": -0.51171875,
+      "logps/chosen": -462.0,
+      "logps/rejected": -376.0,
+      "loss": 0.6914,
+      "nll_loss": 1.1796875,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.007639419404125287,
+      "grad_norm": 134.88438652307744,
+      "learning_rate": 3.435114503816794e-08,
+      "logits/chosen": -0.113525390625,
+      "logits/rejected": -0.2179904580116272,
+      "logps/chosen": -471.1111145019531,
+      "logps/rejected": -452.6666564941406,
+      "loss": 0.6802,
+      "nll_loss": 0.9861111044883728,
+      "rewards/accuracies": 0.2916666567325592,
+      "rewards/chosen": 0.015292697586119175,
+      "rewards/margins": 0.0403103306889534,
+      "rewards/rejected": -0.0250244140625,
+      "step": 10
+    },
+    {
+      "epoch": 0.015278838808250574,
+      "grad_norm": 117.40180735452381,
+      "learning_rate": 7.251908396946564e-08,
+      "logits/chosen": -0.269775390625,
+      "logits/rejected": -0.26899415254592896,
+      "logps/chosen": -482.3999938964844,
+      "logps/rejected": -484.79998779296875,
+      "loss": 0.6959,
+      "nll_loss": 0.942187488079071,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": -0.020050048828125,
+      "rewards/margins": -0.0012695312034338713,
+      "rewards/rejected": -0.01875000074505806,
+      "step": 20
+    },
+    {
+      "epoch": 0.02291825821237586,
+      "grad_norm": 162.31090600401154,
+      "learning_rate": 1.1068702290076336e-07,
+      "logits/chosen": -0.33186036348342896,
+      "logits/rejected": -0.19320067763328552,
+      "logps/chosen": -588.7999877929688,
+      "logps/rejected": -558.7999877929688,
+      "loss": 0.6941,
+      "nll_loss": 0.955859363079071,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": 0.01497802697122097,
+      "rewards/margins": 0.010040283203125,
+      "rewards/rejected": 0.0049682618118822575,
+      "step": 30
+    },
+    {
+      "epoch": 0.030557677616501147,
+      "grad_norm": 128.81685925882783,
+      "learning_rate": 1.4885496183206107e-07,
+      "logits/chosen": -0.2830566465854645,
+      "logits/rejected": -0.288330078125,
+      "logps/chosen": -446.20001220703125,
+      "logps/rejected": -442.20001220703125,
+      "loss": 0.674,
+      "nll_loss": 1.08984375,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": 0.03880615159869194,
+      "rewards/margins": 0.04369506984949112,
+      "rewards/rejected": -0.0050048828125,
+      "step": 40
+    },
+    {
+      "epoch": 0.03819709702062643,
+      "grad_norm": 124.70939134917927,
+      "learning_rate": 1.8702290076335877e-07,
+      "logits/chosen": -0.12124023586511612,
+      "logits/rejected": -0.07585449516773224,
+      "logps/chosen": -501.6000061035156,
+      "logps/rejected": -485.0,
+      "loss": 0.6767,
+      "nll_loss": 0.9253906011581421,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.07005615532398224,
+      "rewards/margins": 0.04642333835363388,
+      "rewards/rejected": 0.02379760704934597,
+      "step": 50
+    },
+    {
+      "epoch": 0.04583651642475172,
+      "grad_norm": 226.10945049239828,
+      "learning_rate": 2.2519083969465648e-07,
+      "logits/chosen": -0.13395996391773224,
+      "logits/rejected": -0.1141357421875,
+      "logps/chosen": -608.2000122070312,
+      "logps/rejected": -578.0,
+      "loss": 0.6779,
+      "nll_loss": 1.0046875476837158,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.11510620266199112,
+      "rewards/margins": 0.067718505859375,
+      "rewards/rejected": 0.04757080227136612,
+      "step": 60
+    },
+    {
+      "epoch": 0.053475935828877004,
+      "grad_norm": 125.83102595124332,
+      "learning_rate": 2.633587786259542e-07,
+      "logits/chosen": -0.14421387016773224,
+      "logits/rejected": -0.2423095703125,
+      "logps/chosen": -514.5999755859375,
+      "logps/rejected": -461.20001220703125,
+      "loss": 0.6211,
+      "nll_loss": 0.9957031011581421,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.33037108182907104,
+      "rewards/margins": 0.19284668564796448,
+      "rewards/rejected": 0.13779297471046448,
+      "step": 70
+    },
+    {
+      "epoch": 0.061115355233002294,
+      "grad_norm": 102.17014243801489,
+      "learning_rate": 3.015267175572519e-07,
+      "logits/chosen": -0.0196533203125,
+      "logits/rejected": -0.01951904222369194,
+      "logps/chosen": -467.79998779296875,
+      "logps/rejected": -433.6000061035156,
+      "loss": 0.5739,
+      "nll_loss": 0.918749988079071,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.32421875,
+      "rewards/margins": 0.3267578184604645,
+      "rewards/rejected": -0.0025634765625,
+      "step": 80
+    },
+    {
+      "epoch": 0.06875477463712758,
+      "grad_norm": 116.393294226921,
+      "learning_rate": 3.396946564885496e-07,
+      "logits/chosen": -0.07778320461511612,
+      "logits/rejected": -0.06748046725988388,
+      "logps/chosen": -685.5999755859375,
+      "logps/rejected": -568.5999755859375,
+      "loss": 0.6071,
+      "nll_loss": 0.9535156488418579,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": 0.2954345643520355,
+      "rewards/margins": 0.2642578184604645,
+      "rewards/rejected": 0.03144531324505806,
+      "step": 90
+    },
+    {
+      "epoch": 0.07639419404125286,
+      "grad_norm": 98.72713078984985,
+      "learning_rate": 3.7786259541984735e-07,
+      "logits/chosen": -0.2978515625,
+      "logits/rejected": -0.25141602754592896,
+      "logps/chosen": -519.7999877929688,
+      "logps/rejected": -522.4000244140625,
+      "loss": 0.5738,
+      "nll_loss": 1.067968726158142,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.14719848334789276,
+      "rewards/margins": 0.42902833223342896,
+      "rewards/rejected": -0.28105467557907104,
+      "step": 100
+    },
+    {
+      "epoch": 0.08403361344537816,
+      "grad_norm": 124.37966570806609,
+      "learning_rate": 4.1603053435114506e-07,
+      "logits/chosen": -0.123291015625,
+      "logits/rejected": -0.130828857421875,
+      "logps/chosen": -548.0,
+      "logps/rejected": -491.6000061035156,
+      "loss": 0.5854,
+      "nll_loss": 0.877734363079071,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.23984375596046448,
+      "rewards/margins": 0.43937987089157104,
+      "rewards/rejected": -0.19887694716453552,
+      "step": 110
+    },
+    {
+      "epoch": 0.09167303284950344,
+      "grad_norm": 96.92927310238335,
+      "learning_rate": 4.541984732824427e-07,
+      "logits/chosen": -0.15711669623851776,
+      "logits/rejected": -0.014111327938735485,
+      "logps/chosen": -496.79998779296875,
+      "logps/rejected": -501.20001220703125,
+      "loss": 0.5269,
+      "nll_loss": 0.9039062261581421,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.15468749403953552,
+      "rewards/margins": 0.699902355670929,
+      "rewards/rejected": -0.544921875,
+      "step": 120
+    },
+    {
+      "epoch": 0.09931245225362872,
+      "grad_norm": 105.44903151573537,
+      "learning_rate": 4.923664122137405e-07,
+      "logits/chosen": 0.05002441257238388,
+      "logits/rejected": -0.05361328274011612,
+      "logps/chosen": -578.4000244140625,
+      "logps/rejected": -516.5999755859375,
+      "loss": 0.4919,
+      "nll_loss": 0.947265625,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.523144543170929,
+      "rewards/margins": 0.8398681879043579,
+      "rewards/rejected": -0.3170837461948395,
+      "step": 130
+    },
+    {
+      "epoch": 0.10695187165775401,
+      "grad_norm": 67.21759101521735,
+      "learning_rate": 4.966044142614601e-07,
+      "logits/chosen": -0.07595214992761612,
+      "logits/rejected": 0.0031250000465661287,
+      "logps/chosen": -436.6000061035156,
+      "logps/rejected": -423.79998779296875,
+      "loss": 0.4388,
+      "nll_loss": 1.072265625,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.4901367127895355,
+      "rewards/margins": 1.0460937023162842,
+      "rewards/rejected": -0.5567382574081421,
+      "step": 140
+    },
+    {
+      "epoch": 0.11459129106187929,
+      "grad_norm": 68.2687002753991,
+      "learning_rate": 4.923599320882851e-07,
+      "logits/chosen": -0.11578369140625,
+      "logits/rejected": -0.09633789211511612,
+      "logps/chosen": -482.3999938964844,
+      "logps/rejected": -514.4000244140625,
+      "loss": 0.4481,
+      "nll_loss": 1.000390648841858,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.5595703125,
+      "rewards/margins": 1.3738281726837158,
+      "rewards/rejected": -0.8130248785018921,
+      "step": 150
+    },
+    {
+      "epoch": 0.12223071046600459,
+      "grad_norm": 127.87576870884502,
+      "learning_rate": 4.881154499151103e-07,
+      "logits/chosen": 0.094970703125,
+      "logits/rejected": 0.12006835639476776,
+      "logps/chosen": -520.5999755859375,
+      "logps/rejected": -488.6000061035156,
+      "loss": 0.4244,
+      "nll_loss": 1.0402343273162842,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.3745971620082855,
+      "rewards/margins": 1.32421875,
+      "rewards/rejected": -0.950451672077179,
+      "step": 160
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "grad_norm": 85.075639185204,
+      "learning_rate": 4.838709677419355e-07,
+      "logits/chosen": -0.03000488318502903,
+      "logits/rejected": 0.00927734375,
+      "logps/chosen": -564.4000244140625,
+      "logps/rejected": -466.0,
+      "loss": 0.5527,
+      "nll_loss": 0.9906250238418579,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.9181152582168579,
+      "rewards/margins": 0.9400390386581421,
+      "rewards/rejected": -0.0205078125,
+      "step": 170
+    },
+    {
+      "epoch": 0.13750954927425516,
+      "grad_norm": 72.56682651323408,
+      "learning_rate": 4.796264855687606e-07,
+      "logits/chosen": 0.15263672173023224,
+      "logits/rejected": 0.12807616591453552,
+      "logps/chosen": -481.20001220703125,
+      "logps/rejected": -463.3999938964844,
+      "loss": 0.5139,
+      "nll_loss": 0.9906250238418579,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.3233398497104645,
+      "rewards/margins": 1.0710937976837158,
+      "rewards/rejected": -0.748730480670929,
+      "step": 180
+    },
+    {
+      "epoch": 0.14514896867838045,
+      "grad_norm": 66.8084913798019,
+      "learning_rate": 4.753820033955857e-07,
+      "logits/chosen": 0.10141601413488388,
+      "logits/rejected": 0.028076171875,
+      "logps/chosen": -562.2000122070312,
+      "logps/rejected": -514.7999877929688,
+      "loss": 0.4805,
+      "nll_loss": 1.060937523841858,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.14283446967601776,
+      "rewards/margins": 1.2859375476837158,
+      "rewards/rejected": -1.1462891101837158,
+      "step": 190
+    },
+    {
+      "epoch": 0.15278838808250572,
+      "grad_norm": 93.37492304215273,
+      "learning_rate": 4.7113752122241087e-07,
+      "logits/chosen": 0.13945312798023224,
+      "logits/rejected": 0.12504883110523224,
+      "logps/chosen": -555.0,
+      "logps/rejected": -517.0,
+      "loss": 0.5766,
+      "nll_loss": 0.900390625,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.2847656309604645,
+      "rewards/margins": 0.858593761920929,
+      "rewards/rejected": -0.5726073980331421,
+      "step": 200
+    },
+    {
+      "epoch": 0.16042780748663102,
+      "grad_norm": 122.1908698464538,
+      "learning_rate": 4.66893039049236e-07,
+      "logits/chosen": 0.11003418266773224,
+      "logits/rejected": 0.07954101264476776,
+      "logps/chosen": -510.0,
+      "logps/rejected": -481.79998779296875,
+      "loss": 0.436,
+      "nll_loss": 0.966015636920929,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.05595703050494194,
+      "rewards/margins": 1.149023413658142,
+      "rewards/rejected": -1.20556640625,
+      "step": 210
+    },
+    {
+      "epoch": 0.16806722689075632,
+      "grad_norm": 119.50281555399438,
+      "learning_rate": 4.6264855687606106e-07,
+      "logits/chosen": 0.03498535230755806,
+      "logits/rejected": 0.06562499701976776,
+      "logps/chosen": -458.20001220703125,
+      "logps/rejected": -433.3999938964844,
+      "loss": 0.4885,
+      "nll_loss": 1.021093726158142,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.17633056640625,
+      "rewards/margins": 1.134374976158142,
+      "rewards/rejected": -1.310156226158142,
+      "step": 220
+    },
+    {
+      "epoch": 0.17570664629488159,
+      "grad_norm": 54.05921608969606,
+      "learning_rate": 4.5840407470288624e-07,
+      "logits/chosen": 0.14101561903953552,
+      "logits/rejected": 0.1561279296875,
+      "logps/chosen": -496.20001220703125,
+      "logps/rejected": -491.79998779296875,
+      "loss": 0.3993,
+      "nll_loss": 0.958984375,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.15058593451976776,
+      "rewards/margins": 1.658593773841858,
+      "rewards/rejected": -1.8125,
+      "step": 230
+    },
+    {
+      "epoch": 0.18334606569900688,
+      "grad_norm": 122.95753964854363,
+      "learning_rate": 4.5415959252971136e-07,
+      "logits/chosen": 0.31416016817092896,
+      "logits/rejected": 0.24771729111671448,
+      "logps/chosen": -451.3999938964844,
+      "logps/rejected": -461.6000061035156,
+      "loss": 0.5026,
+      "nll_loss": 1.0085937976837158,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.4728759825229645,
+      "rewards/margins": 1.413671851158142,
+      "rewards/rejected": -1.8835937976837158,
+      "step": 240
+    },
+    {
+      "epoch": 0.19098548510313215,
+      "grad_norm": 70.39494400187786,
+      "learning_rate": 4.499151103565365e-07,
+      "logits/chosen": 0.16347655653953552,
+      "logits/rejected": 0.20424804091453552,
+      "logps/chosen": -635.2000122070312,
+      "logps/rejected": -493.79998779296875,
+      "loss": 0.4695,
+      "nll_loss": 0.934374988079071,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.5228027105331421,
+      "rewards/margins": 1.4542968273162842,
+      "rewards/rejected": -0.932080090045929,
+      "step": 250
+    },
+    {
+      "epoch": 0.19862490450725745,
+      "grad_norm": 98.89422904437872,
+      "learning_rate": 4.456706281833616e-07,
+      "logits/chosen": 0.2513671815395355,
+      "logits/rejected": 0.1383056640625,
+      "logps/chosen": -476.20001220703125,
+      "logps/rejected": -469.3999938964844,
+      "loss": 0.5171,
+      "nll_loss": 1.030859351158142,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.675097644329071,
+      "rewards/margins": 1.3078124523162842,
+      "rewards/rejected": -0.6328125,
+      "step": 260
+    },
+    {
+      "epoch": 0.20626432391138275,
+      "grad_norm": 87.2798705625053,
+      "learning_rate": 4.4142614601018673e-07,
+      "logits/chosen": 0.13022461533546448,
+      "logits/rejected": 0.320068359375,
+      "logps/chosen": -515.0,
+      "logps/rejected": -514.2000122070312,
+      "loss": 0.4791,
+      "nll_loss": 0.948046863079071,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.964648425579071,
+      "rewards/margins": 1.5105469226837158,
+      "rewards/rejected": -0.5445312261581421,
+      "step": 270
+    },
+    {
+      "epoch": 0.21390374331550802,
+      "grad_norm": 108.15959014981838,
+      "learning_rate": 4.3718166383701186e-07,
+      "logits/chosen": -0.01950683631002903,
+      "logits/rejected": 0.17734375596046448,
+      "logps/chosen": -593.7999877929688,
+      "logps/rejected": -553.2000122070312,
+      "loss": 0.4719,
+      "nll_loss": 1.0437500476837158,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 1.063085913658142,
+      "rewards/margins": 1.41015625,
+      "rewards/rejected": -0.34550780057907104,
+      "step": 280
+    },
+    {
+      "epoch": 0.2215431627196333,
+      "grad_norm": 84.53969769192312,
+      "learning_rate": 4.32937181663837e-07,
+      "logits/chosen": 0.29316407442092896,
+      "logits/rejected": 0.2685302793979645,
+      "logps/chosen": -584.2000122070312,
+      "logps/rejected": -543.0,
+      "loss": 0.4121,
+      "nll_loss": 0.9039062261581421,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.831738293170929,
+      "rewards/margins": 1.84765625,
+      "rewards/rejected": -1.015625,
+      "step": 290
+    },
+    {
+      "epoch": 0.22918258212375858,
+      "grad_norm": 178.4258829118625,
+      "learning_rate": 4.286926994906621e-07,
+      "logits/chosen": 0.11018066108226776,
+      "logits/rejected": 0.03170166164636612,
+      "logps/chosen": -530.2000122070312,
+      "logps/rejected": -490.79998779296875,
+      "loss": 0.4702,
+      "nll_loss": 0.9750000238418579,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.4922851622104645,
+      "rewards/margins": 1.6189453601837158,
+      "rewards/rejected": -1.127587914466858,
+      "step": 300
+    },
+    {
+      "epoch": 0.23682200152788388,
+      "grad_norm": 177.58002775235644,
+      "learning_rate": 4.244482173174873e-07,
+      "logits/chosen": 0.19103392958641052,
+      "logits/rejected": 0.210693359375,
+      "logps/chosen": -510.6000061035156,
+      "logps/rejected": -456.3999938964844,
+      "loss": 0.3855,
+      "nll_loss": 0.900390625,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.91552734375,
+      "rewards/margins": 1.4249999523162842,
+      "rewards/rejected": -0.509326159954071,
+      "step": 310
+    },
+    {
+      "epoch": 0.24446142093200918,
+      "grad_norm": 87.23485706050842,
+      "learning_rate": 4.202037351443124e-07,
+      "logits/chosen": 0.07420654594898224,
+      "logits/rejected": 0.21796874701976776,
+      "logps/chosen": -473.6000061035156,
+      "logps/rejected": -471.6000061035156,
+      "loss": 0.455,
+      "nll_loss": 1.019921898841858,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.5599609613418579,
+      "rewards/margins": 1.7609374523162842,
+      "rewards/rejected": -1.200781226158142,
+      "step": 320
+    },
+    {
+      "epoch": 0.25210084033613445,
+      "grad_norm": 118.39889100233657,
+      "learning_rate": 4.159592529711375e-07,
+      "logits/chosen": 0.15974120795726776,
+      "logits/rejected": 0.20943602919578552,
+      "logps/chosen": -520.2000122070312,
+      "logps/rejected": -501.0,
+      "loss": 0.4228,
+      "nll_loss": 0.9609375,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.89111328125,
+      "rewards/margins": 1.538671851158142,
+      "rewards/rejected": -0.647900402545929,
+      "step": 330
+    },
+    {
+      "epoch": 0.2597402597402597,
+      "grad_norm": 55.527233131819315,
+      "learning_rate": 4.1171477079796265e-07,
+      "logits/chosen": 0.18583984673023224,
+      "logits/rejected": 0.23032227158546448,
+      "logps/chosen": -536.5999755859375,
+      "logps/rejected": -527.5999755859375,
+      "loss": 0.4781,
+      "nll_loss": 0.936718761920929,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.18813475966453552,
+      "rewards/margins": 1.195898413658142,
+      "rewards/rejected": -1.384765625,
+      "step": 340
+    },
+    {
+      "epoch": 0.26737967914438504,
+      "grad_norm": 55.046301267314455,
+      "learning_rate": 4.074702886247878e-07,
+      "logits/chosen": 0.0034667968284338713,
+      "logits/rejected": 0.0003173828008584678,
+      "logps/chosen": -525.7999877929688,
+      "logps/rejected": -488.0,
+      "loss": 0.4043,
+      "nll_loss": 0.985546886920929,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.538769543170929,
+      "rewards/margins": 1.618749976158142,
+      "rewards/rejected": -1.0803711414337158,
+      "step": 350
+    },
+    {
+      "epoch": 0.2750190985485103,
+      "grad_norm": 74.35779638281001,
+      "learning_rate": 4.0322580645161285e-07,
+      "logits/chosen": 0.15576171875,
+      "logits/rejected": 0.2554931640625,
+      "logps/chosen": -586.7999877929688,
+      "logps/rejected": -572.4000244140625,
+      "loss": 0.5316,
+      "nll_loss": 1.003515601158142,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.10053710639476776,
+      "rewards/margins": 1.283203125,
+      "rewards/rejected": -1.385351538658142,
+      "step": 360
+    },
+    {
+      "epoch": 0.2826585179526356,
+      "grad_norm": 80.55889148977015,
+      "learning_rate": 3.98981324278438e-07,
+      "logits/chosen": -0.086669921875,
+      "logits/rejected": 0.0487060546875,
+      "logps/chosen": -523.2000122070312,
+      "logps/rejected": -488.20001220703125,
+      "loss": 0.4494,
+      "nll_loss": 1.0398437976837158,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.313232421875,
+      "rewards/margins": 1.748437523841858,
+      "rewards/rejected": -2.060839891433716,
+      "step": 370
+    },
+    {
+      "epoch": 0.2902979373567609,
+      "grad_norm": 79.33557174780084,
+      "learning_rate": 3.9473684210526315e-07,
+      "logits/chosen": 0.01704101637005806,
+      "logits/rejected": 0.013476562686264515,
+      "logps/chosen": -593.5999755859375,
+      "logps/rejected": -577.2000122070312,
+      "loss": 0.5144,
+      "nll_loss": 1.001953125,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.20126953721046448,
+      "rewards/margins": 1.30078125,
+      "rewards/rejected": -1.0986328125,
+      "step": 380
+    },
+    {
+      "epoch": 0.2979373567608862,
+      "grad_norm": 150.3385845904889,
+      "learning_rate": 3.9049235993208827e-07,
+      "logits/chosen": 0.10019531100988388,
+      "logits/rejected": -0.04719238355755806,
+      "logps/chosen": -523.7999877929688,
+      "logps/rejected": -526.5999755859375,
+      "loss": 0.5132,
+      "nll_loss": 1.1007812023162842,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.0283203125,
+      "rewards/margins": 1.380517601966858,
+      "rewards/rejected": -1.409277319908142,
+      "step": 390
+    },
+    {
+      "epoch": 0.30557677616501144,
+      "grad_norm": 42.55557637305296,
+      "learning_rate": 3.862478777589134e-07,
+      "logits/chosen": 0.07124023139476776,
+      "logits/rejected": 0.06547851860523224,
+      "logps/chosen": -547.2000122070312,
+      "logps/rejected": -544.7999877929688,
+      "loss": 0.3939,
+      "nll_loss": 1.0046875476837158,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.634228527545929,
+      "rewards/margins": 1.944921851158142,
+      "rewards/rejected": -1.310546875,
+      "step": 400
+    },
+    {
+      "epoch": 0.31321619556913677,
+      "grad_norm": 65.88455118968501,
+      "learning_rate": 3.820033955857385e-07,
+      "logits/chosen": 0.09038086235523224,
+      "logits/rejected": 0.073974609375,
+      "logps/chosen": -521.5999755859375,
+      "logps/rejected": -469.3999938964844,
+      "loss": 0.3976,
+      "nll_loss": 0.9765625,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.05693359300494194,
+      "rewards/margins": 1.83203125,
+      "rewards/rejected": -1.890039086341858,
+      "step": 410
+    },
+    {
+      "epoch": 0.32085561497326204,
+      "grad_norm": 90.26286302852353,
+      "learning_rate": 3.7775891341256364e-07,
+      "logits/chosen": 0.09355469048023224,
+      "logits/rejected": 0.1094970703125,
+      "logps/chosen": -601.5999755859375,
+      "logps/rejected": -540.7999877929688,
+      "loss": 0.4069,
+      "nll_loss": 0.950390636920929,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.05307617038488388,
+      "rewards/margins": 1.935156226158142,
+      "rewards/rejected": -1.989843726158142,
+      "step": 420
+    },
+    {
+      "epoch": 0.3284950343773873,
+      "grad_norm": 79.4961646277846,
+      "learning_rate": 3.735144312393888e-07,
+      "logits/chosen": 0.02392578125,
+      "logits/rejected": 0.11666259914636612,
+      "logps/chosen": -563.2000122070312,
+      "logps/rejected": -509.6000061035156,
+      "loss": 0.5029,
+      "nll_loss": 0.9609375,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.2892577648162842,
+      "rewards/margins": 1.270898461341858,
+      "rewards/rejected": -2.5609374046325684,
+      "step": 430
+    },
+    {
+      "epoch": 0.33613445378151263,
+      "grad_norm": 47.27348830374442,
+      "learning_rate": 3.692699490662139e-07,
+      "logits/chosen": 0.3138671815395355,
+      "logits/rejected": 0.2645019590854645,
+      "logps/chosen": -562.2000122070312,
+      "logps/rejected": -525.7999877929688,
+      "loss": 0.5141,
+      "nll_loss": 1.0089843273162842,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.4290039539337158,
+      "rewards/margins": 1.462890625,
+      "rewards/rejected": -2.892578125,
+      "step": 440
+    },
+    {
+      "epoch": 0.3437738731856379,
+      "grad_norm": 136.72527131588762,
+      "learning_rate": 3.65025466893039e-07,
+      "logits/chosen": 0.07827148586511612,
+      "logits/rejected": 0.13486328721046448,
+      "logps/chosen": -564.4000244140625,
+      "logps/rejected": -536.7999877929688,
+      "loss": 0.488,
+      "nll_loss": 1.119531273841858,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.4256835877895355,
+      "rewards/margins": 1.5109374523162842,
+      "rewards/rejected": -1.9357421398162842,
+      "step": 450
+    },
+    {
+      "epoch": 0.35141329258976317,
+      "grad_norm": 50.953994445015056,
+      "learning_rate": 3.607809847198642e-07,
+      "logits/chosen": -0.14997711777687073,
+      "logits/rejected": 0.03886718675494194,
+      "logps/chosen": -514.0,
+      "logps/rejected": -524.4000244140625,
+      "loss": 0.4767,
+      "nll_loss": 1.031640648841858,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.5672851800918579,
+      "rewards/margins": 1.609765648841858,
+      "rewards/rejected": -2.1778807640075684,
+      "step": 460
+    },
+    {
+      "epoch": 0.35905271199388844,
+      "grad_norm": 240.3612883527372,
+      "learning_rate": 3.5653650254668926e-07,
+      "logits/chosen": 0.20814208686351776,
+      "logits/rejected": 0.13437500596046448,
+      "logps/chosen": -537.0,
+      "logps/rejected": -507.0,
+      "loss": 0.5926,
+      "nll_loss": 0.987500011920929,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.91497802734375,
+      "rewards/margins": 1.119531273841858,
+      "rewards/rejected": -2.037109375,
+      "step": 470
+    },
+    {
+      "epoch": 0.36669213139801377,
+      "grad_norm": 87.08199892967568,
+      "learning_rate": 3.5229202037351443e-07,
+      "logits/chosen": -0.12431640923023224,
+      "logits/rejected": -0.07424316555261612,
+      "logps/chosen": -473.20001220703125,
+      "logps/rejected": -490.0,
+      "loss": 0.521,
+      "nll_loss": 0.983593761920929,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.677001953125,
+      "rewards/margins": 1.192968726158142,
+      "rewards/rejected": -1.8699219226837158,
+      "step": 480
+    },
+    {
+      "epoch": 0.37433155080213903,
+      "grad_norm": 92.89135301388274,
+      "learning_rate": 3.4804753820033956e-07,
+      "logits/chosen": -7.324219041038305e-05,
+      "logits/rejected": 0.10617675632238388,
+      "logps/chosen": -597.4000244140625,
+      "logps/rejected": -560.0,
+      "loss": 0.3843,
+      "nll_loss": 1.0382812023162842,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.25146484375,
+      "rewards/margins": 1.8230469226837158,
+      "rewards/rejected": -2.075000047683716,
+      "step": 490
+    },
+    {
+      "epoch": 0.3819709702062643,
+      "grad_norm": 88.06852905492813,
+      "learning_rate": 3.438030560271647e-07,
+      "logits/chosen": 0.06113281100988388,
+      "logits/rejected": 0.12486572563648224,
+      "logps/chosen": -531.4000244140625,
+      "logps/rejected": -499.20001220703125,
+      "loss": 0.506,
+      "nll_loss": 1.047265648841858,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.698437511920929,
+      "rewards/margins": 1.429296851158142,
+      "rewards/rejected": -2.130078077316284,
+      "step": 500
+    },
+    {
+      "epoch": 0.38961038961038963,
+      "grad_norm": 127.28421372369633,
+      "learning_rate": 3.395585738539898e-07,
+      "logits/chosen": 0.06453857570886612,
+      "logits/rejected": 0.12724609673023224,
+      "logps/chosen": -607.5999755859375,
+      "logps/rejected": -596.5999755859375,
+      "loss": 0.4705,
+      "nll_loss": 0.899218738079071,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.493896484375,
+      "rewards/margins": 1.21044921875,
+      "rewards/rejected": -1.704687476158142,
+      "step": 510
+    },
+    {
+      "epoch": 0.3972498090145149,
+      "grad_norm": 106.37931014491402,
+      "learning_rate": 3.3531409168081493e-07,
+      "logits/chosen": 0.074462890625,
+      "logits/rejected": -0.02686767652630806,
+      "logps/chosen": -612.7999877929688,
+      "logps/rejected": -560.2000122070312,
+      "loss": 0.5153,
+      "nll_loss": 0.954296886920929,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.33642578125,
+      "rewards/margins": 1.134179711341858,
+      "rewards/rejected": -1.4684569835662842,
+      "step": 520
+    },
+    {
+      "epoch": 0.40488922841864017,
+      "grad_norm": 92.15914610298877,
+      "learning_rate": 3.3106960950764005e-07,
+      "logits/chosen": -0.07530517876148224,
+      "logits/rejected": -0.0087890625,
+      "logps/chosen": -639.7999877929688,
+      "logps/rejected": -620.4000244140625,
+      "loss": 0.4675,
+      "nll_loss": 1.0304687023162842,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.21469727158546448,
+      "rewards/margins": 1.3169677257537842,
+      "rewards/rejected": -1.5315430164337158,
+      "step": 530
+    },
+    {
+      "epoch": 0.4125286478227655,
+      "grad_norm": 68.26427654711365,
+      "learning_rate": 3.268251273344652e-07,
+      "logits/chosen": 0.06784667819738388,
+      "logits/rejected": 0.15874023735523224,
+      "logps/chosen": -566.2000122070312,
+      "logps/rejected": -525.7999877929688,
+      "loss": 0.3663,
+      "nll_loss": 0.9828125238418579,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.00732421875,
+      "rewards/margins": 1.726171851158142,
+      "rewards/rejected": -1.734472632408142,
+      "step": 540
+    },
+    {
+      "epoch": 0.42016806722689076,
+      "grad_norm": 79.05578583438974,
+      "learning_rate": 3.225806451612903e-07,
+      "logits/chosen": -0.0009765625,
+      "logits/rejected": 0.02316894568502903,
+      "logps/chosen": -535.2000122070312,
+      "logps/rejected": -485.6000061035156,
+      "loss": 0.3245,
+      "nll_loss": 0.958203136920929,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.0714843273162842,
+      "rewards/margins": 2.037890672683716,
+      "rewards/rejected": -3.1092529296875,
+      "step": 550
+    },
+    {
+      "epoch": 0.42780748663101603,
+      "grad_norm": 72.72051100521483,
+      "learning_rate": 3.183361629881154e-07,
+      "logits/chosen": 0.33515626192092896,
+      "logits/rejected": 0.31201171875,
+      "logps/chosen": -551.2000122070312,
+      "logps/rejected": -521.2000122070312,
+      "loss": 0.5041,
+      "nll_loss": 1.116796851158142,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.181640625,
+      "rewards/margins": 1.537109375,
+      "rewards/rejected": -2.719531297683716,
+      "step": 560
+    },
+    {
+      "epoch": 0.43544690603514136,
+      "grad_norm": 101.18450597632666,
+      "learning_rate": 3.140916808149406e-07,
+      "logits/chosen": 0.19754639267921448,
+      "logits/rejected": 0.2854980528354645,
+      "logps/chosen": -634.0,
+      "logps/rejected": -620.2000122070312,
+      "loss": 0.4623,
+      "nll_loss": 1.0085937976837158,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.019921898841858,
+      "rewards/margins": 1.576171875,
+      "rewards/rejected": -2.5960936546325684,
+      "step": 570
+    },
+    {
+      "epoch": 0.4430863254392666,
+      "grad_norm": 62.30940742785987,
+      "learning_rate": 3.0984719864176567e-07,
+      "logits/chosen": 0.18598632514476776,
+      "logits/rejected": 0.390625,
+      "logps/chosen": -529.2000122070312,
+      "logps/rejected": -501.3999938964844,
+      "loss": 0.3935,
+      "nll_loss": 0.9593750238418579,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.7264648675918579,
+      "rewards/margins": 1.8708984851837158,
+      "rewards/rejected": -2.5953125953674316,
+      "step": 580
+    },
+    {
+      "epoch": 0.4507257448433919,
+      "grad_norm": 81.31513302420962,
+      "learning_rate": 3.056027164685908e-07,
+      "logits/chosen": 0.06633301079273224,
+      "logits/rejected": 0.10258789360523224,
+      "logps/chosen": -542.7999877929688,
+      "logps/rejected": -565.4000244140625,
+      "loss": 0.5325,
+      "nll_loss": 1.1355469226837158,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.4011719226837158,
+      "rewards/margins": 1.4412109851837158,
+      "rewards/rejected": -2.8414063453674316,
+      "step": 590
+    },
+    {
+      "epoch": 0.45836516424751717,
+      "grad_norm": 104.05872957710817,
+      "learning_rate": 3.0135823429541597e-07,
+      "logits/chosen": 0.026275634765625,
+      "logits/rejected": 0.14370116591453552,
+      "logps/chosen": -574.5999755859375,
+      "logps/rejected": -551.7999877929688,
+      "loss": 0.5553,
+      "nll_loss": 0.985546886920929,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.1213867664337158,
+      "rewards/margins": 1.3791015148162842,
+      "rewards/rejected": -2.4986329078674316,
+      "step": 600
+    },
+    {
+      "epoch": 0.4660045836516425,
+      "grad_norm": 90.94069952298143,
+      "learning_rate": 2.9711375212224104e-07,
+      "logits/chosen": 0.18339844048023224,
+      "logits/rejected": 0.17988280951976776,
+      "logps/chosen": -555.7999877929688,
+      "logps/rejected": -538.4000244140625,
+      "loss": 0.5513,
+      "nll_loss": 0.989453136920929,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.832812488079071,
+      "rewards/margins": 1.2374999523162842,
+      "rewards/rejected": -2.067187547683716,
+      "step": 610
+    },
+    {
+      "epoch": 0.47364400305576776,
+      "grad_norm": 38.710202372779044,
+      "learning_rate": 2.928692699490662e-07,
+      "logits/chosen": 0.09355469048023224,
+      "logits/rejected": 0.11258544772863388,
+      "logps/chosen": -601.5999755859375,
+      "logps/rejected": -556.5999755859375,
+      "loss": 0.3726,
+      "nll_loss": 1.028906226158142,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.8633788824081421,
+      "rewards/margins": 1.5730469226837158,
+      "rewards/rejected": -2.438281297683716,
+      "step": 620
+    },
+    {
+      "epoch": 0.48128342245989303,
+      "grad_norm": 33.45736397793641,
+      "learning_rate": 2.8862478777589134e-07,
+      "logits/chosen": -0.05854492262005806,
+      "logits/rejected": -0.072296142578125,
+      "logps/chosen": -635.2000122070312,
+      "logps/rejected": -611.2000122070312,
+      "loss": 0.4438,
+      "nll_loss": 1.0750000476837158,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.956738293170929,
+      "rewards/margins": 1.6749999523162842,
+      "rewards/rejected": -2.626953125,
+      "step": 630
+    },
+    {
+      "epoch": 0.48892284186401835,
+      "grad_norm": 89.25083718246636,
+      "learning_rate": 2.8438030560271646e-07,
+      "logits/chosen": 0.1068115234375,
+      "logits/rejected": 0.04353027418255806,
+      "logps/chosen": -652.7999877929688,
+      "logps/rejected": -652.7999877929688,
+      "loss": 0.4249,
+      "nll_loss": 1.197265625,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.766528308391571,
+      "rewards/margins": 1.6980469226837158,
+      "rewards/rejected": -2.4664063453674316,
+      "step": 640
+    },
+    {
+      "epoch": 0.4965622612681436,
+      "grad_norm": 74.29229238796317,
+      "learning_rate": 2.801358234295416e-07,
+      "logits/chosen": 0.14731445908546448,
+      "logits/rejected": 0.22744140028953552,
+      "logps/chosen": -451.79998779296875,
+      "logps/rejected": -463.20001220703125,
+      "loss": 0.4997,
+      "nll_loss": 0.9644531011581421,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.562109351158142,
+      "rewards/margins": 1.396093726158142,
+      "rewards/rejected": -2.9593749046325684,
+      "step": 650
+    },
+    {
+      "epoch": 0.5042016806722689,
+      "grad_norm": 151.21250104416566,
+      "learning_rate": 2.758913412563667e-07,
+      "logits/chosen": 0.13557128608226776,
+      "logits/rejected": 0.2906494140625,
+      "logps/chosen": -526.5999755859375,
+      "logps/rejected": -476.0,
+      "loss": 0.4011,
+      "nll_loss": 1.02734375,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.814892590045929,
+      "rewards/margins": 1.8203125,
+      "rewards/rejected": -2.635937452316284,
+      "step": 660
+    },
+    {
+      "epoch": 0.5118411000763942,
+      "grad_norm": 91.91804317104803,
+      "learning_rate": 2.7164685908319183e-07,
+      "logits/chosen": 0.20478515326976776,
+      "logits/rejected": 0.33662110567092896,
+      "logps/chosen": -529.0,
+      "logps/rejected": -514.2000122070312,
+      "loss": 0.5713,
+      "nll_loss": 1.0546875,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.23017577826976776,
+      "rewards/margins": 1.3191406726837158,
+      "rewards/rejected": -1.549218773841858,
+      "step": 670
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 24.046031163829962,
+      "learning_rate": 2.67402376910017e-07,
+      "logits/chosen": 0.08054199069738388,
+      "logits/rejected": 0.14824219048023224,
+      "logps/chosen": -506.0,
+      "logps/rejected": -516.5999755859375,
+      "loss": 0.4506,
+      "nll_loss": 1.0359375476837158,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.658935546875,
+      "rewards/margins": 2.053906202316284,
+      "rewards/rejected": -2.713671922683716,
+      "step": 680
+    },
+    {
+      "epoch": 0.5271199388846448,
+      "grad_norm": 86.2778829204208,
+      "learning_rate": 2.631578947368421e-07,
+      "logits/chosen": 0.11899413913488388,
+      "logits/rejected": 0.15830078721046448,
+      "logps/chosen": -528.4000244140625,
+      "logps/rejected": -489.6000061035156,
+      "loss": 0.4389,
+      "nll_loss": 1.0031249523162842,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.705273449420929,
+      "rewards/margins": 1.63671875,
+      "rewards/rejected": -2.34375,
+      "step": 690
+    },
+    {
+      "epoch": 0.5347593582887701,
+      "grad_norm": 52.510026553930075,
+      "learning_rate": 2.589134125636672e-07,
+      "logits/chosen": 0.008349609561264515,
+      "logits/rejected": -0.014941406436264515,
+      "logps/chosen": -612.2000122070312,
+      "logps/rejected": -568.0,
+      "loss": 0.4444,
+      "nll_loss": 1.1515624523162842,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8998047113418579,
+      "rewards/margins": 2.20703125,
+      "rewards/rejected": -3.1070313453674316,
+      "step": 700
+    },
+    {
+      "epoch": 0.5423987776928954,
+      "grad_norm": 168.91459009375725,
+      "learning_rate": 2.546689303904924e-07,
+      "logits/chosen": 0.26335448026657104,
+      "logits/rejected": 0.260498046875,
+      "logps/chosen": -523.5999755859375,
+      "logps/rejected": -479.0,
+      "loss": 0.5232,
+      "nll_loss": 0.9859374761581421,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.4925293028354645,
+      "rewards/margins": 1.5232422351837158,
+      "rewards/rejected": -2.0136961936950684,
+      "step": 710
+    },
+    {
+      "epoch": 0.5500381970970206,
+      "grad_norm": 42.12866881778182,
+      "learning_rate": 2.5042444821731745e-07,
+      "logits/chosen": 0.216796875,
+      "logits/rejected": 0.07828368991613388,
+      "logps/chosen": -497.3999938964844,
+      "logps/rejected": -565.4000244140625,
+      "loss": 0.49,
+      "nll_loss": 0.9710937738418579,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.7671874761581421,
+      "rewards/margins": 1.429101586341858,
+      "rewards/rejected": -2.194531202316284,
+      "step": 720
+    },
+    {
+      "epoch": 0.5576776165011459,
+      "grad_norm": 66.13390214135931,
+      "learning_rate": 2.4617996604414257e-07,
+      "logits/chosen": 0.10423584282398224,
+      "logits/rejected": 0.15535888075828552,
+      "logps/chosen": -531.2000122070312,
+      "logps/rejected": -528.0,
+      "loss": 0.3866,
+      "nll_loss": 0.9769531488418579,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.10312499850988388,
+      "rewards/margins": 2.0078125,
+      "rewards/rejected": -2.1107420921325684,
+      "step": 730
+    },
+    {
+      "epoch": 0.5653170359052712,
+      "grad_norm": 68.88567628228641,
+      "learning_rate": 2.4193548387096775e-07,
+      "logits/chosen": 0.02717285230755806,
+      "logits/rejected": 0.1082763671875,
+      "logps/chosen": -529.2000122070312,
+      "logps/rejected": -530.0,
+      "loss": 0.4087,
+      "nll_loss": 1.119531273841858,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.271484375,
+      "rewards/margins": 1.700781226158142,
+      "rewards/rejected": -1.9748046398162842,
+      "step": 740
+    },
+    {
+      "epoch": 0.5729564553093965,
+      "grad_norm": 149.21207550792738,
+      "learning_rate": 2.3769100169779285e-07,
+      "logits/chosen": 0.2953124940395355,
+      "logits/rejected": 0.20274658501148224,
+      "logps/chosen": -615.4000244140625,
+      "logps/rejected": -604.0,
+      "loss": 0.4149,
+      "nll_loss": 1.070703148841858,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.25048828125,
+      "rewards/margins": 2.1714844703674316,
+      "rewards/rejected": -1.924218773841858,
+      "step": 750
+    },
+    {
+      "epoch": 0.5805958747135218,
+      "grad_norm": 43.52746784376356,
+      "learning_rate": 2.33446519524618e-07,
+      "logits/chosen": 0.15043945610523224,
+      "logits/rejected": 0.09915771335363388,
+      "logps/chosen": -634.5999755859375,
+      "logps/rejected": -594.0,
+      "loss": 0.3219,
+      "nll_loss": 1.0617187023162842,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.091552734375,
+      "rewards/margins": 2.1484375,
+      "rewards/rejected": -3.2367186546325684,
+      "step": 760
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 78.35036463903903,
+      "learning_rate": 2.2920203735144312e-07,
+      "logits/chosen": 0.2001953125,
+      "logits/rejected": 0.229248046875,
+      "logps/chosen": -491.0,
+      "logps/rejected": -530.7999877929688,
+      "loss": 0.4278,
+      "nll_loss": 0.9136718511581421,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.3425781726837158,
+      "rewards/margins": 1.4572265148162842,
+      "rewards/rejected": -2.7984375953674316,
+      "step": 770
+    },
+    {
+      "epoch": 0.5958747135217723,
+      "grad_norm": 63.09040192519054,
+      "learning_rate": 2.2495755517826824e-07,
+      "logits/chosen": 0.22727051377296448,
+      "logits/rejected": 0.2230224609375,
+      "logps/chosen": -537.4000244140625,
+      "logps/rejected": -527.2000122070312,
+      "loss": 0.3625,
+      "nll_loss": 1.072656273841858,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.6168457269668579,
+      "rewards/margins": 2.2718749046325684,
+      "rewards/rejected": -2.887500047683716,
+      "step": 780
+    },
+    {
+      "epoch": 0.6035141329258976,
+      "grad_norm": 163.65178327754901,
+      "learning_rate": 2.2071307300509337e-07,
+      "logits/chosen": 0.06174926832318306,
+      "logits/rejected": 0.24165038764476776,
+      "logps/chosen": -536.0,
+      "logps/rejected": -516.7999877929688,
+      "loss": 0.4089,
+      "nll_loss": 0.979687511920929,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.4857421815395355,
+      "rewards/margins": 1.9304687976837158,
+      "rewards/rejected": -2.4164061546325684,
+      "step": 790
+    },
+    {
+      "epoch": 0.6111535523300229,
+      "grad_norm": 88.08094851450458,
+      "learning_rate": 2.164685908319185e-07,
+      "logits/chosen": 0.10258789360523224,
+      "logits/rejected": 0.24887695908546448,
+      "logps/chosen": -622.7999877929688,
+      "logps/rejected": -624.5999755859375,
+      "loss": 0.4898,
+      "nll_loss": 1.0183594226837158,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.33203125,
+      "rewards/margins": 1.5109374523162842,
+      "rewards/rejected": -2.839648485183716,
+      "step": 800
+    },
+    {
+      "epoch": 0.6187929717341482,
+      "grad_norm": 61.96074875142302,
+      "learning_rate": 2.1222410865874364e-07,
+      "logits/chosen": 0.20058593153953552,
+      "logits/rejected": 0.20753173530101776,
+      "logps/chosen": -514.4000244140625,
+      "logps/rejected": -482.79998779296875,
+      "loss": 0.3643,
+      "nll_loss": 0.992968738079071,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.125781297683716,
+      "rewards/margins": 1.8703124523162842,
+      "rewards/rejected": -3.9937500953674316,
+      "step": 810
+    },
+    {
+      "epoch": 0.6264323911382735,
+      "grad_norm": 78.46100711259405,
+      "learning_rate": 2.0797962648556874e-07,
+      "logits/chosen": 0.11856689304113388,
+      "logits/rejected": 0.21796874701976776,
+      "logps/chosen": -493.79998779296875,
+      "logps/rejected": -470.0,
+      "loss": 0.4282,
+      "nll_loss": 0.8968750238418579,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.718164086341858,
+      "rewards/margins": 1.7355468273162842,
+      "rewards/rejected": -3.450976610183716,
+      "step": 820
+    },
+    {
+      "epoch": 0.6340718105423988,
+      "grad_norm": 77.73118393844226,
+      "learning_rate": 2.037351443123939e-07,
+      "logits/chosen": 0.20204468071460724,
+      "logits/rejected": 0.2997070252895355,
+      "logps/chosen": -508.20001220703125,
+      "logps/rejected": -503.79998779296875,
+      "loss": 0.4684,
+      "nll_loss": 0.9378906488418579,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.0494141578674316,
+      "rewards/margins": 1.7734375,
+      "rewards/rejected": -3.8218750953674316,
+      "step": 830
+    },
+    {
+      "epoch": 0.6417112299465241,
+      "grad_norm": 51.36288875319757,
+      "learning_rate": 1.99490662139219e-07,
+      "logits/chosen": 0.08984375,
+      "logits/rejected": 0.26904296875,
+      "logps/chosen": -532.5999755859375,
+      "logps/rejected": -528.2000122070312,
+      "loss": 0.39,
+      "nll_loss": 1.1417968273162842,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.943359375,
+      "rewards/margins": 2.007031202316284,
+      "rewards/rejected": -3.950000047683716,
+      "step": 840
+    },
+    {
+      "epoch": 0.6493506493506493,
+      "grad_norm": 62.89771240222646,
+      "learning_rate": 1.9524617996604413e-07,
+      "logits/chosen": 0.18178710341453552,
+      "logits/rejected": 0.3423828184604645,
+      "logps/chosen": -577.2000122070312,
+      "logps/rejected": -608.0,
+      "loss": 0.351,
+      "nll_loss": 1.049218773841858,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.882226586341858,
+      "rewards/margins": 1.9597656726837158,
+      "rewards/rejected": -3.8382811546325684,
+      "step": 850
+    },
+    {
+      "epoch": 0.6569900687547746,
+      "grad_norm": 168.00220492062218,
+      "learning_rate": 1.9100169779286926e-07,
+      "logits/chosen": 0.10942383110523224,
+      "logits/rejected": 0.13002929091453552,
+      "logps/chosen": -529.5999755859375,
+      "logps/rejected": -466.79998779296875,
+      "loss": 0.4862,
+      "nll_loss": 1.0945312976837158,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.9791991710662842,
+      "rewards/margins": 1.7999999523162842,
+      "rewards/rejected": -3.78125,
+      "step": 860
+    },
+    {
+      "epoch": 0.6646294881588999,
+      "grad_norm": 59.78300945522556,
+      "learning_rate": 1.867572156196944e-07,
+      "logits/chosen": -0.00019531250291038305,
+      "logits/rejected": 0.16667480766773224,
+      "logps/chosen": -494.3999938964844,
+      "logps/rejected": -466.6000061035156,
+      "loss": 0.4736,
+      "nll_loss": 1.0222656726837158,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.707128882408142,
+      "rewards/margins": 1.8664062023162842,
+      "rewards/rejected": -3.5796875953674316,
+      "step": 870
+    },
+    {
+      "epoch": 0.6722689075630253,
+      "grad_norm": 71.0629204613292,
+      "learning_rate": 1.825127334465195e-07,
+      "logits/chosen": 0.37675780057907104,
+      "logits/rejected": 0.5088866949081421,
+      "logps/chosen": -544.4000244140625,
+      "logps/rejected": -515.2000122070312,
+      "loss": 0.4535,
+      "nll_loss": 0.9624999761581421,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.88671875,
+      "rewards/margins": 1.910546898841858,
+      "rewards/rejected": -3.7984375953674316,
+      "step": 880
+    },
+    {
+      "epoch": 0.6799083269671505,
+      "grad_norm": 105.14381586804791,
+      "learning_rate": 1.7826825127334463e-07,
+      "logits/chosen": 0.4029541015625,
+      "logits/rejected": 0.09556885063648224,
+      "logps/chosen": -593.5999755859375,
+      "logps/rejected": -555.7999877929688,
+      "loss": 0.4513,
+      "nll_loss": 1.1453125476837158,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.828125,
+      "rewards/margins": 2.0414061546325684,
+      "rewards/rejected": -3.8687500953674316,
+      "step": 890
+    },
+    {
+      "epoch": 0.6875477463712758,
+      "grad_norm": 92.44231400598672,
+      "learning_rate": 1.7402376910016978e-07,
+      "logits/chosen": 0.2739501893520355,
+      "logits/rejected": 0.19692382216453552,
+      "logps/chosen": -590.7999877929688,
+      "logps/rejected": -493.79998779296875,
+      "loss": 0.3861,
+      "nll_loss": 1.0773437023162842,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.638769507408142,
+      "rewards/margins": 1.8623046875,
+      "rewards/rejected": -3.5023436546325684,
+      "step": 900
+    },
+    {
+      "epoch": 0.6951871657754011,
+      "grad_norm": 51.021124930196535,
+      "learning_rate": 1.697792869269949e-07,
+      "logits/chosen": 0.13515624403953552,
+      "logits/rejected": 0.11835937201976776,
+      "logps/chosen": -695.5999755859375,
+      "logps/rejected": -717.5999755859375,
+      "loss": 0.4679,
+      "nll_loss": 0.9722656011581421,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.2556641101837158,
+      "rewards/margins": 1.419921875,
+      "rewards/rejected": -2.673046827316284,
+      "step": 910
+    },
+    {
+      "epoch": 0.7028265851795263,
+      "grad_norm": 106.63758032816845,
+      "learning_rate": 1.6553480475382003e-07,
+      "logits/chosen": 0.11247558891773224,
+      "logits/rejected": 0.16817016899585724,
+      "logps/chosen": -503.20001220703125,
+      "logps/rejected": -501.79998779296875,
+      "loss": 0.516,
+      "nll_loss": 1.0261719226837158,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.6069824695587158,
+      "rewards/margins": 1.6521484851837158,
+      "rewards/rejected": -3.2593750953674316,
+      "step": 920
+    },
+    {
+      "epoch": 0.7104660045836516,
+      "grad_norm": 41.82251046800636,
+      "learning_rate": 1.6129032258064515e-07,
+      "logits/chosen": 0.33271485567092896,
+      "logits/rejected": 0.30549317598342896,
+      "logps/chosen": -570.0,
+      "logps/rejected": -557.2000122070312,
+      "loss": 0.4462,
+      "nll_loss": 0.9378906488418579,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.86328125,
+      "rewards/margins": 1.784765601158142,
+      "rewards/rejected": -3.6500000953674316,
+      "step": 930
+    },
+    {
+      "epoch": 0.7181054239877769,
+      "grad_norm": 59.265277634488925,
+      "learning_rate": 1.570458404074703e-07,
+      "logits/chosen": 0.16783447563648224,
+      "logits/rejected": 0.21890869736671448,
+      "logps/chosen": -509.6000061035156,
+      "logps/rejected": -499.3999938964844,
+      "loss": 0.4888,
+      "nll_loss": 1.064453125,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.707421898841858,
+      "rewards/margins": 1.84375,
+      "rewards/rejected": -3.553906202316284,
+      "step": 940
+    },
+    {
+      "epoch": 0.7257448433919023,
+      "grad_norm": 77.92638263470651,
+      "learning_rate": 1.528013582342954e-07,
+      "logits/chosen": 0.24189452826976776,
+      "logits/rejected": 0.16245117783546448,
+      "logps/chosen": -618.0,
+      "logps/rejected": -578.7999877929688,
+      "loss": 0.4762,
+      "nll_loss": 1.064062476158142,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.4609375,
+      "rewards/margins": 1.718359351158142,
+      "rewards/rejected": -3.1812500953674316,
+      "step": 950
+    },
+    {
+      "epoch": 0.7333842627960275,
+      "grad_norm": 175.06103048761182,
+      "learning_rate": 1.4855687606112052e-07,
+      "logits/chosen": 0.02786865271627903,
+      "logits/rejected": 0.24497070908546448,
+      "logps/chosen": -573.2000122070312,
+      "logps/rejected": -503.6000061035156,
+      "loss": 0.4024,
+      "nll_loss": 1.069921851158142,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.059985399246216,
+      "rewards/margins": 2.0023436546325684,
+      "rewards/rejected": -4.0625,
+      "step": 960
+    },
+    {
+      "epoch": 0.7410236822001528,
+      "grad_norm": 66.36991524452817,
+      "learning_rate": 1.4431239388794567e-07,
+      "logits/chosen": 0.15531310439109802,
+      "logits/rejected": 0.35588377714157104,
+      "logps/chosen": -488.79998779296875,
+      "logps/rejected": -478.6000061035156,
+      "loss": 0.3916,
+      "nll_loss": 1.0046875476837158,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4480469226837158,
+      "rewards/margins": 1.8976562023162842,
+      "rewards/rejected": -3.3466796875,
+      "step": 970
+    },
+    {
+      "epoch": 0.7486631016042781,
+      "grad_norm": 104.2638833576658,
+      "learning_rate": 1.400679117147708e-07,
+      "logits/chosen": 0.02060546912252903,
+      "logits/rejected": 0.23635253310203552,
+      "logps/chosen": -522.4000244140625,
+      "logps/rejected": -455.3999938964844,
+      "loss": 0.4204,
+      "nll_loss": 1.078515648841858,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.4582030773162842,
+      "rewards/margins": 1.611718773841858,
+      "rewards/rejected": -3.071093797683716,
+      "step": 980
+    },
+    {
+      "epoch": 0.7563025210084033,
+      "grad_norm": 89.84520085486623,
+      "learning_rate": 1.3582342954159592e-07,
+      "logits/chosen": 0.1976318359375,
+      "logits/rejected": 0.23613281548023224,
+      "logps/chosen": -619.2000122070312,
+      "logps/rejected": -586.2000122070312,
+      "loss": 0.409,
+      "nll_loss": 1.031640648841858,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.990625023841858,
+      "rewards/margins": 1.865625023841858,
+      "rewards/rejected": -3.854687452316284,
+      "step": 990
+    },
+    {
+      "epoch": 0.7639419404125286,
+      "grad_norm": 153.33070702585832,
+      "learning_rate": 1.3157894736842104e-07,
+      "logits/chosen": 0.16008910536766052,
+      "logits/rejected": 0.16474609076976776,
+      "logps/chosen": -559.4000244140625,
+      "logps/rejected": -610.2000122070312,
+      "loss": 0.4936,
+      "nll_loss": 1.001953125,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.138281226158142,
+      "rewards/margins": 1.834375023841858,
+      "rewards/rejected": -2.973437547683716,
+      "step": 1000
+    },
+    {
+      "epoch": 0.771581359816654,
+      "grad_norm": 54.641803489764264,
+      "learning_rate": 1.273344651952462e-07,
+      "logits/chosen": 0.2105712890625,
+      "logits/rejected": 0.2726074159145355,
+      "logps/chosen": -532.5999755859375,
+      "logps/rejected": -532.4000244140625,
+      "loss": 0.4568,
+      "nll_loss": 0.927734375,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.4357421398162842,
+      "rewards/margins": 1.740625023841858,
+      "rewards/rejected": -3.1781249046325684,
+      "step": 1010
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "grad_norm": 76.14721419271173,
+      "learning_rate": 1.2308998302207129e-07,
+      "logits/chosen": -0.04191894456744194,
+      "logits/rejected": 0.11892089992761612,
+      "logps/chosen": -622.2000122070312,
+      "logps/rejected": -604.5999755859375,
+      "loss": 0.5112,
+      "nll_loss": 1.1613280773162842,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.048437476158142,
+      "rewards/margins": 1.73828125,
+      "rewards/rejected": -2.787109375,
+      "step": 1020
+    },
+    {
+      "epoch": 0.7868601986249045,
+      "grad_norm": 46.81095324265018,
+      "learning_rate": 1.1884550084889642e-07,
+      "logits/chosen": 0.12519530951976776,
+      "logits/rejected": 0.3093627989292145,
+      "logps/chosen": -590.2000122070312,
+      "logps/rejected": -565.5999755859375,
+      "loss": 0.3614,
+      "nll_loss": 1.192968726158142,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.818359375,
+      "rewards/margins": 1.951562523841858,
+      "rewards/rejected": -3.768749952316284,
+      "step": 1030
+    },
+    {
+      "epoch": 0.7944996180290298,
+      "grad_norm": 188.1614298163614,
+      "learning_rate": 1.1460101867572156e-07,
+      "logits/chosen": 0.06070556491613388,
+      "logits/rejected": 0.09006347507238388,
+      "logps/chosen": -581.7999877929688,
+      "logps/rejected": -629.2000122070312,
+      "loss": 0.3791,
+      "nll_loss": 0.9515625238418579,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.4390625953674316,
+      "rewards/margins": 1.7605469226837158,
+      "rewards/rejected": -4.199999809265137,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8021390374331551,
+      "grad_norm": 46.116263610995595,
+      "learning_rate": 1.1035653650254668e-07,
+      "logits/chosen": 0.04994506761431694,
+      "logits/rejected": 0.04636230319738388,
+      "logps/chosen": -505.0,
+      "logps/rejected": -514.2000122070312,
+      "loss": 0.4822,
+      "nll_loss": 0.950390636920929,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.1416015625,
+      "rewards/margins": 1.7126953601837158,
+      "rewards/rejected": -2.8589844703674316,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8097784568372803,
+      "grad_norm": 27.441756440042443,
+      "learning_rate": 1.0611205432937182e-07,
+      "logits/chosen": 0.181640625,
+      "logits/rejected": 0.19467774033546448,
+      "logps/chosen": -621.5999755859375,
+      "logps/rejected": -601.7999877929688,
+      "loss": 0.314,
+      "nll_loss": 0.958984375,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.361718773841858,
+      "rewards/margins": 2.022656202316284,
+      "rewards/rejected": -3.38671875,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8174178762414056,
+      "grad_norm": 30.958123881153575,
+      "learning_rate": 1.0186757215619694e-07,
+      "logits/chosen": 0.17719726264476776,
+      "logits/rejected": 0.2730468809604645,
+      "logps/chosen": -548.2000122070312,
+      "logps/rejected": -525.2000122070312,
+      "loss": 0.4084,
+      "nll_loss": 0.974609375,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.289892554283142,
+      "rewards/margins": 1.989843726158142,
+      "rewards/rejected": -3.28515625,
+      "step": 1070
+    },
+    {
+      "epoch": 0.825057295645531,
+      "grad_norm": 46.51626516681703,
+      "learning_rate": 9.762308998302207e-08,
+      "logits/chosen": 0.1400146484375,
+      "logits/rejected": 0.05910644680261612,
+      "logps/chosen": -524.5999755859375,
+      "logps/rejected": -512.5999755859375,
+      "loss": 0.3726,
+      "nll_loss": 1.006250023841858,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.084082007408142,
+      "rewards/margins": 1.799218773841858,
+      "rewards/rejected": -2.879687547683716,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8326967150496563,
+      "grad_norm": 34.1039818844264,
+      "learning_rate": 9.33786078098472e-08,
+      "logits/chosen": 0.08969726413488388,
+      "logits/rejected": 0.2244873046875,
+      "logps/chosen": -499.79998779296875,
+      "logps/rejected": -485.0,
+      "loss": 0.4221,
+      "nll_loss": 0.979296863079071,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2386353015899658,
+      "rewards/margins": 1.769921898841858,
+      "rewards/rejected": -3.0078125,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8403361344537815,
+      "grad_norm": 44.51111317109547,
+      "learning_rate": 8.913412563667231e-08,
+      "logits/chosen": 0.05061035230755806,
+      "logits/rejected": -0.0087890625,
+      "logps/chosen": -558.0,
+      "logps/rejected": -569.5999755859375,
+      "loss": 0.4065,
+      "nll_loss": 1.037500023841858,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.33984375,
+      "rewards/margins": 1.8230469226837158,
+      "rewards/rejected": -3.1656250953674316,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8479755538579068,
+      "grad_norm": 127.58455214847397,
+      "learning_rate": 8.488964346349745e-08,
+      "logits/chosen": 0.427734375,
+      "logits/rejected": 0.2650390565395355,
+      "logps/chosen": -515.7999877929688,
+      "logps/rejected": -480.0,
+      "loss": 0.3811,
+      "nll_loss": 1.0066406726837158,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5940430164337158,
+      "rewards/margins": 1.8195312023162842,
+      "rewards/rejected": -3.4124999046325684,
+      "step": 1110
+    },
+    {
+      "epoch": 0.8556149732620321,
+      "grad_norm": 84.1325471209257,
+      "learning_rate": 8.064516129032257e-08,
+      "logits/chosen": 0.04128418117761612,
+      "logits/rejected": 0.15388183295726776,
+      "logps/chosen": -484.3999938964844,
+      "logps/rejected": -555.5999755859375,
+      "loss": 0.4469,
+      "nll_loss": 0.9390624761581421,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.283789038658142,
+      "rewards/margins": 1.693750023841858,
+      "rewards/rejected": -2.9800782203674316,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8632543926661573,
+      "grad_norm": 126.51132512166387,
+      "learning_rate": 7.64006791171477e-08,
+      "logits/chosen": 0.2769531309604645,
+      "logits/rejected": 0.24785156548023224,
+      "logps/chosen": -508.20001220703125,
+      "logps/rejected": -510.20001220703125,
+      "loss": 0.4501,
+      "nll_loss": 0.952343761920929,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.070703148841858,
+      "rewards/margins": 1.8757812976837158,
+      "rewards/rejected": -2.9507813453674316,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8708938120702827,
+      "grad_norm": 68.0062602486858,
+      "learning_rate": 7.215619694397283e-08,
+      "logits/chosen": 0.20705565810203552,
+      "logits/rejected": 0.12968750298023224,
+      "logps/chosen": -541.0,
+      "logps/rejected": -518.2000122070312,
+      "loss": 0.4509,
+      "nll_loss": 0.9488281011581421,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.046484351158142,
+      "rewards/margins": 1.5662109851837158,
+      "rewards/rejected": -2.612499952316284,
+      "step": 1140
+    },
+    {
+      "epoch": 0.878533231474408,
+      "grad_norm": 56.86465687647158,
+      "learning_rate": 6.791171477079796e-08,
+      "logits/chosen": 0.10419921576976776,
+      "logits/rejected": 0.10698242485523224,
+      "logps/chosen": -586.5999755859375,
+      "logps/rejected": -557.7999877929688,
+      "loss": 0.4839,
+      "nll_loss": 1.083984375,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.5614258050918579,
+      "rewards/margins": 1.4835937023162842,
+      "rewards/rejected": -2.046093702316284,
+      "step": 1150
+    },
+    {
+      "epoch": 0.8861726508785333,
+      "grad_norm": 249.55831019629667,
+      "learning_rate": 6.36672325976231e-08,
+      "logits/chosen": 0.06125488132238388,
+      "logits/rejected": 0.20297852158546448,
+      "logps/chosen": -528.7999877929688,
+      "logps/rejected": -527.5999755859375,
+      "loss": 0.4153,
+      "nll_loss": 1.016015648841858,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.149658203125,
+      "rewards/margins": 1.703125,
+      "rewards/rejected": -2.854296922683716,
+      "step": 1160
+    },
+    {
+      "epoch": 0.8938120702826585,
+      "grad_norm": 56.85991905712662,
+      "learning_rate": 5.942275042444821e-08,
+      "logits/chosen": 0.14946289360523224,
+      "logits/rejected": 0.13559570908546448,
+      "logps/chosen": -523.4000244140625,
+      "logps/rejected": -499.3999938964844,
+      "loss": 0.4354,
+      "nll_loss": 0.923046886920929,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.0758545398712158,
+      "rewards/margins": 1.5320312976837158,
+      "rewards/rejected": -2.611132860183716,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9014514896867838,
+      "grad_norm": 42.322112632764245,
+      "learning_rate": 5.517826825127334e-08,
+      "logits/chosen": 0.15610352158546448,
+      "logits/rejected": 0.15117187798023224,
+      "logps/chosen": -562.5999755859375,
+      "logps/rejected": -543.2000122070312,
+      "loss": 0.4079,
+      "nll_loss": 1.0734374523162842,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.0110352039337158,
+      "rewards/margins": 1.935156226158142,
+      "rewards/rejected": -2.9496092796325684,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 92.98578925608547,
+      "learning_rate": 5.093378607809847e-08,
+      "logits/chosen": 0.04831542819738388,
+      "logits/rejected": 0.24643555283546448,
+      "logps/chosen": -521.4000244140625,
+      "logps/rejected": -481.3999938964844,
+      "loss": 0.4018,
+      "nll_loss": 1.131250023841858,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.9009765386581421,
+      "rewards/margins": 2.0601563453674316,
+      "rewards/rejected": -2.9625000953674316,
+      "step": 1190
+    },
+    {
+      "epoch": 0.9167303284950343,
+      "grad_norm": 80.1548091064356,
+      "learning_rate": 4.66893039049236e-08,
+      "logits/chosen": 0.18161621689796448,
+      "logits/rejected": 0.4056152403354645,
+      "logps/chosen": -504.0,
+      "logps/rejected": -524.4000244140625,
+      "loss": 0.437,
+      "nll_loss": 0.9574218988418579,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.600195288658142,
+      "rewards/margins": 1.701562523841858,
+      "rewards/rejected": -3.2984375953674316,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9243697478991597,
+      "grad_norm": 104.97014790303885,
+      "learning_rate": 4.2444821731748725e-08,
+      "logits/chosen": 0.10756836086511612,
+      "logits/rejected": 0.17495116591453552,
+      "logps/chosen": -541.4000244140625,
+      "logps/rejected": -549.5999755859375,
+      "loss": 0.4187,
+      "nll_loss": 1.021093726158142,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.9234374761581421,
+      "rewards/margins": 2.3499999046325684,
+      "rewards/rejected": -3.2718749046325684,
+      "step": 1210
+    },
+    {
+      "epoch": 0.932009167303285,
+      "grad_norm": 79.03828937393179,
+      "learning_rate": 3.820033955857385e-08,
+      "logits/chosen": 0.04698486253619194,
+      "logits/rejected": 0.06538085639476776,
+      "logps/chosen": -618.4000244140625,
+      "logps/rejected": -604.0,
+      "loss": 0.4579,
+      "nll_loss": 1.101171851158142,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.149804711341858,
+      "rewards/margins": 1.558984398841858,
+      "rewards/rejected": -2.710156202316284,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9396485867074102,
+      "grad_norm": 49.18189678080444,
+      "learning_rate": 3.395585738539898e-08,
+      "logits/chosen": 0.11579589545726776,
+      "logits/rejected": 0.30366212129592896,
+      "logps/chosen": -533.0,
+      "logps/rejected": -537.0,
+      "loss": 0.2985,
+      "nll_loss": 1.0769531726837158,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.183935523033142,
+      "rewards/margins": 2.2054686546325684,
+      "rewards/rejected": -3.38671875,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9472880061115355,
+      "grad_norm": 65.08543589597988,
+      "learning_rate": 2.9711375212224106e-08,
+      "logits/chosen": 0.05819091945886612,
+      "logits/rejected": 0.17856445908546448,
+      "logps/chosen": -529.2000122070312,
+      "logps/rejected": -525.4000244140625,
+      "loss": 0.2858,
+      "nll_loss": 1.075781226158142,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.2798340320587158,
+      "rewards/margins": 2.4281249046325684,
+      "rewards/rejected": -3.7125000953674316,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9549274255156608,
+      "grad_norm": 113.15137128253427,
+      "learning_rate": 2.5466893039049236e-08,
+      "logits/chosen": 0.19570311903953552,
+      "logits/rejected": 0.31059569120407104,
+      "logps/chosen": -523.4000244140625,
+      "logps/rejected": -506.6000061035156,
+      "loss": 0.4007,
+      "nll_loss": 0.979296863079071,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.1939697265625,
+      "rewards/margins": 1.759765625,
+      "rewards/rejected": -2.9546875953674316,
+      "step": 1250
+    },
+    {
+      "epoch": 0.9625668449197861,
+      "grad_norm": 80.05367241552668,
+      "learning_rate": 2.1222410865874363e-08,
+      "logits/chosen": 0.09323730319738388,
+      "logits/rejected": 0.09921874850988388,
+      "logps/chosen": -536.5999755859375,
+      "logps/rejected": -564.4000244140625,
+      "loss": 0.4261,
+      "nll_loss": 1.044921875,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.2507812976837158,
+      "rewards/margins": 2.0042967796325684,
+      "rewards/rejected": -3.2562499046325684,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9702062643239114,
+      "grad_norm": 57.04509819991225,
+      "learning_rate": 1.697792869269949e-08,
+      "logits/chosen": 0.16401366889476776,
+      "logits/rejected": 0.06118469312787056,
+      "logps/chosen": -505.0,
+      "logps/rejected": -465.6000061035156,
+      "loss": 0.4771,
+      "nll_loss": 0.983203113079071,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.430273413658142,
+      "rewards/margins": 1.6331055164337158,
+      "rewards/rejected": -3.0640625953674316,
+      "step": 1270
+    },
+    {
+      "epoch": 0.9778456837280367,
+      "grad_norm": 56.366216029864354,
+      "learning_rate": 1.2733446519524618e-08,
+      "logits/chosen": 0.14274902641773224,
+      "logits/rejected": 0.08376464992761612,
+      "logps/chosen": -548.5999755859375,
+      "logps/rejected": -502.0,
+      "loss": 0.4558,
+      "nll_loss": 0.947265625,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.254296898841858,
+      "rewards/margins": 1.4153320789337158,
+      "rewards/rejected": -2.6664061546325684,
+      "step": 1280
+    },
+    {
+      "epoch": 0.985485103132162,
+      "grad_norm": 172.76801282724654,
+      "learning_rate": 8.488964346349745e-09,
+      "logits/chosen": 0.13247069716453552,
+      "logits/rejected": 0.21201172471046448,
+      "logps/chosen": -625.4000244140625,
+      "logps/rejected": -559.2000122070312,
+      "loss": 0.6188,
+      "nll_loss": 1.0027344226837158,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.865917980670929,
+      "rewards/margins": 1.8015625476837158,
+      "rewards/rejected": -2.668750047683716,
+      "step": 1290
+    },
+    {
+      "epoch": 0.9931245225362872,
+      "grad_norm": 33.19453659649471,
+      "learning_rate": 4.244482173174872e-09,
+      "logits/chosen": 0.15334472060203552,
+      "logits/rejected": 0.234130859375,
+      "logps/chosen": -540.4000244140625,
+      "logps/rejected": -483.79998779296875,
+      "loss": 0.475,
+      "nll_loss": 0.89453125,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.7779296636581421,
+      "rewards/margins": 1.6785156726837158,
+      "rewards/rejected": -2.4566407203674316,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_logits/chosen": 0.17315204441547394,
+      "eval_logits/rejected": 0.33705490827560425,
+      "eval_logps/chosen": -523.6923217773438,
+      "eval_logps/rejected": -511.69232177734375,
+      "eval_loss": 0.5020715594291687,
+      "eval_nll_loss": 1.0318509340286255,
+      "eval_rewards/accuracies": 0.6538461446762085,
+      "eval_rewards/chosen": -1.2085336446762085,
+      "eval_rewards/margins": 1.761868953704834,
+      "eval_rewards/rejected": -2.966947078704834,
+      "eval_runtime": 16.8968,
+      "eval_samples_per_second": 5.918,
+      "eval_steps_per_second": 0.769,
+      "step": 1309
+    },
+    {
+      "epoch": 1.0,
+      "step": 1309,
+      "total_flos": 0.0,
+      "train_loss": 0.4647196615989924,
+      "train_runtime": 4672.0978,
+      "train_samples_per_second": 2.24,
+      "train_steps_per_second": 0.28
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1309,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}