Upload folder using huggingface_hub

5e272c1 verified 3 months ago

99.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.8888888888888888,
	"eval_steps": 500,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 5.309734513274336e-07,
	"logits/chosen": -2.1858699321746826,
	"logits/rejected": -2.25400972366333,
	"logps/chosen": -292.4839172363281,
	"logps/rejected": -334.2861633300781,
	"loss": 0.6928,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.0007014082511886954,
	"rewards/margins": 0.0008057593367993832,
	"rewards/rejected": -0.001507167937234044,
	"step": 10
	},
	{
	"epoch": 0.01,
	"learning_rate": 1.415929203539823e-06,
	"logits/chosen": -2.2499358654022217,
	"logits/rejected": -2.2245681285858154,
	"logps/chosen": -323.0448303222656,
	"logps/rejected": -341.9175109863281,
	"loss": 0.6941,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.0023523904383182526,
	"rewards/margins": -0.0019129945430904627,
	"rewards/rejected": -0.00043939598253928125,
	"step": 20
	},
	{
	"epoch": 0.01,
	"learning_rate": 2.3008849557522127e-06,
	"logits/chosen": -2.2502377033233643,
	"logits/rejected": -2.235426425933838,
	"logps/chosen": -309.60076904296875,
	"logps/rejected": -354.3961181640625,
	"loss": 0.6933,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.005819912068545818,
	"rewards/margins": -0.00021856316016055644,
	"rewards/rejected": -0.0056013488210737705,
	"step": 30
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.185840707964602e-06,
	"logits/chosen": -2.2594857215881348,
	"logits/rejected": -2.231959819793701,
	"logps/chosen": -342.497802734375,
	"logps/rejected": -361.927734375,
	"loss": 0.6939,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.017969723790884018,
	"rewards/margins": -0.001382522750645876,
	"rewards/rejected": -0.01658720150589943,
	"step": 40
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.070796460176992e-06,
	"logits/chosen": -2.278099775314331,
	"logits/rejected": -2.2154829502105713,
	"logps/chosen": -334.44879150390625,
	"logps/rejected": -324.4710998535156,
	"loss": 0.6928,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.03501028195023537,
	"rewards/margins": 0.000740527524612844,
	"rewards/rejected": -0.03575081005692482,
	"step": 50
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.955752212389381e-06,
	"logits/chosen": -2.28778338432312,
	"logits/rejected": -2.1848011016845703,
	"logps/chosen": -329.4461669921875,
	"logps/rejected": -304.49163818359375,
	"loss": 0.693,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.0479893684387207,
	"rewards/margins": 0.0005268483073450625,
	"rewards/rejected": -0.04851621761918068,
	"step": 60
	},
	{
	"epoch": 0.03,
	"learning_rate": 5.840707964601771e-06,
	"logits/chosen": -2.118542194366455,
	"logits/rejected": -2.1866343021392822,
	"logps/chosen": -299.27447509765625,
	"logps/rejected": -326.0574645996094,
	"loss": 0.6925,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.049522001296281815,
	"rewards/margins": 0.001656264765188098,
	"rewards/rejected": -0.05117826536297798,
	"step": 70
	},
	{
	"epoch": 0.04,
	"learning_rate": 6.72566371681416e-06,
	"logits/chosen": -2.17606782913208,
	"logits/rejected": -2.1878247261047363,
	"logps/chosen": -327.1267395019531,
	"logps/rejected": -323.746337890625,
	"loss": 0.6897,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.050967562943696976,
	"rewards/margins": 0.0074631692841649055,
	"rewards/rejected": -0.05843073129653931,
	"step": 80
	},
	{
	"epoch": 0.04,
	"learning_rate": 7.610619469026549e-06,
	"logits/chosen": -2.3069217205047607,
	"logits/rejected": -2.1109657287597656,
	"logps/chosen": -359.98150634765625,
	"logps/rejected": -322.8603820800781,
	"loss": 0.7002,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.05969462916254997,
	"rewards/margins": -0.013257542625069618,
	"rewards/rejected": -0.0464370921254158,
	"step": 90
	},
	{
	"epoch": 0.04,
	"learning_rate": 8.495575221238938e-06,
	"logits/chosen": -2.2969472408294678,
	"logits/rejected": -2.2404885292053223,
	"logps/chosen": -328.78704833984375,
	"logps/rejected": -334.45281982421875,
	"loss": 0.6917,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.005047931335866451,
	"rewards/margins": 0.0031173895113170147,
	"rewards/rejected": 0.0019305419409647584,
	"step": 100
	},
	{
	"epoch": 0.05,
	"learning_rate": 9.380530973451329e-06,
	"logits/chosen": -2.2497150897979736,
	"logits/rejected": -2.220237970352173,
	"logps/chosen": -333.1561584472656,
	"logps/rejected": -314.7790832519531,
	"loss": 0.6961,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": 0.015577316284179688,
	"rewards/margins": -0.005401826463639736,
	"rewards/rejected": 0.02097914181649685,
	"step": 110
	},
	{
	"epoch": 0.05,
	"learning_rate": 9.999951373555555e-06,
	"logits/chosen": -2.301379442214966,
	"logits/rejected": -2.223681926727295,
	"logps/chosen": -351.5559387207031,
	"logps/rejected": -326.63287353515625,
	"loss": 0.6889,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.012599905952811241,
	"rewards/margins": 0.009558334946632385,
	"rewards/rejected": 0.003041572170332074,
	"step": 120
	},
	{
	"epoch": 0.06,
	"learning_rate": 9.999086929743288e-06,
	"logits/chosen": -2.2710835933685303,
	"logits/rejected": -2.227280855178833,
	"logps/chosen": -321.6353454589844,
	"logps/rejected": -332.7576599121094,
	"loss": 0.692,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.040375690907239914,
	"rewards/margins": 0.004883688408881426,
	"rewards/rejected": 0.03549199923872948,
	"step": 130
	},
	{
	"epoch": 0.06,
	"learning_rate": 9.997142113313472e-06,
	"logits/chosen": -2.212054491043091,
	"logits/rejected": -2.202702283859253,
	"logps/chosen": -322.11651611328125,
	"logps/rejected": -309.7989501953125,
	"loss": 0.6871,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.0492350198328495,
	"rewards/margins": 0.013679656200110912,
	"rewards/rejected": 0.035555362701416016,
	"step": 140
	},
	{
	"epoch": 0.07,
	"learning_rate": 9.994117344568142e-06,
	"logits/chosen": -2.2250020503997803,
	"logits/rejected": -2.2318902015686035,
	"logps/chosen": -317.3855895996094,
	"logps/rejected": -337.94805908203125,
	"loss": 0.6924,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.03159898519515991,
	"rewards/margins": 0.0040366738103330135,
	"rewards/rejected": 0.02756231650710106,
	"step": 150
	},
	{
	"epoch": 0.07,
	"learning_rate": 9.990013277202137e-06,
	"logits/chosen": -2.2112176418304443,
	"logits/rejected": -2.3512566089630127,
	"logps/chosen": -337.7769775390625,
	"logps/rejected": -419.68450927734375,
	"loss": 0.7042,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.02137443795800209,
	"rewards/margins": -0.019264575093984604,
	"rewards/rejected": -0.00210986053571105,
	"step": 160
	},
	{
	"epoch": 0.08,
	"learning_rate": 9.984830798161828e-06,
	"logits/chosen": -2.2544150352478027,
	"logits/rejected": -2.1911208629608154,
	"logps/chosen": -384.29718017578125,
	"logps/rejected": -362.35308837890625,
	"loss": 0.6841,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.11389386653900146,
	"rewards/margins": 0.022078361362218857,
	"rewards/rejected": -0.13597223162651062,
	"step": 170
	},
	{
	"epoch": 0.08,
	"learning_rate": 9.978571027453433e-06,
	"logits/chosen": -2.3017163276672363,
	"logits/rejected": -2.12226939201355,
	"logps/chosen": -364.39837646484375,
	"logps/rejected": -286.0245361328125,
	"loss": 0.6959,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.12149347364902496,
	"rewards/margins": 0.000388662883779034,
	"rewards/rejected": -0.12188214063644409,
	"step": 180
	},
	{
	"epoch": 0.08,
	"learning_rate": 9.971235317900968e-06,
	"logits/chosen": -2.1424872875213623,
	"logits/rejected": -2.239366054534912,
	"logps/chosen": -283.5924377441406,
	"logps/rejected": -315.69586181640625,
	"loss": 0.6965,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.04944513365626335,
	"rewards/margins": -0.0020489301532506943,
	"rewards/rejected": -0.04739619791507721,
	"step": 190
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.962825254853888e-06,
	"logits/chosen": -2.3371052742004395,
	"logits/rejected": -2.248575210571289,
	"logps/chosen": -406.6221923828125,
	"logps/rejected": -363.2230529785156,
	"loss": 0.6814,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.03307682275772095,
	"rewards/margins": 0.028196487575769424,
	"rewards/rejected": 0.004880332853645086,
	"step": 200
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.953342655844465e-06,
	"logits/chosen": -2.281076669692993,
	"logits/rejected": -2.124605655670166,
	"logps/chosen": -329.9849548339844,
	"logps/rejected": -306.5705261230469,
	"loss": 0.6745,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.04553469270467758,
	"rewards/margins": 0.04089093953371048,
	"rewards/rejected": 0.004643745254725218,
	"step": 210
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.942789570194995e-06,
	"logits/chosen": -2.2274227142333984,
	"logits/rejected": -2.195772409439087,
	"logps/chosen": -353.90277099609375,
	"logps/rejected": -329.13055419921875,
	"loss": 0.6709,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.03678930178284645,
	"rewards/margins": 0.05163549259305,
	"rewards/rejected": -0.014846190810203552,
	"step": 220
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.931168278574916e-06,
	"logits/chosen": -2.290721893310547,
	"logits/rejected": -2.233349561691284,
	"logps/chosen": -384.83087158203125,
	"logps/rejected": -375.786376953125,
	"loss": 0.6738,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.10011746734380722,
	"rewards/margins": 0.0485808365046978,
	"rewards/rejected": 0.05153663828969002,
	"step": 230
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.919797871024877e-06,
	"logits/chosen": -2.3008508682250977,
	"logits/rejected": -2.2407467365264893,
	"logps/chosen": -341.2652587890625,
	"logps/rejected": -304.7622985839844,
	"loss": 0.6569,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": 0.061227262020111084,
	"rewards/margins": 0.07875394821166992,
	"rewards/rejected": -0.01752668246626854,
	"step": 240
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.906154097672858e-06,
	"logits/chosen": -2.3239777088165283,
	"logits/rejected": -2.2359421253204346,
	"logps/chosen": -357.5738220214844,
	"logps/rejected": -333.55389404296875,
	"loss": 0.6474,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.16475871205329895,
	"rewards/margins": 0.10896603018045425,
	"rewards/rejected": 0.05579269677400589,
	"step": 250
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.89145003578833e-06,
	"logits/chosen": -2.3069913387298584,
	"logits/rejected": -2.225893497467041,
	"logps/chosen": -337.88299560546875,
	"logps/rejected": -319.11016845703125,
	"loss": 0.6595,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.17844273149967194,
	"rewards/margins": 0.08880583941936493,
	"rewards/rejected": 0.08963687717914581,
	"step": 260
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.875688863124766e-06,
	"logits/chosen": -2.22190260887146,
	"logits/rejected": -2.2968430519104004,
	"logps/chosen": -391.5494384765625,
	"logps/rejected": -404.64178466796875,
	"loss": 0.6949,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.26371732354164124,
	"rewards/margins": 0.03252069279551506,
	"rewards/rejected": 0.23119667172431946,
	"step": 270
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.858873985892058e-06,
	"logits/chosen": -2.2825188636779785,
	"logits/rejected": -2.19154691696167,
	"logps/chosen": -354.6551818847656,
	"logps/rejected": -353.5287170410156,
	"loss": 0.6837,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.13825781643390656,
	"rewards/margins": 0.03303035721182823,
	"rewards/rejected": 0.10522744804620743,
	"step": 280
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.841009038020401e-06,
	"logits/chosen": -2.2181854248046875,
	"logits/rejected": -2.2422547340393066,
	"logps/chosen": -332.62322998046875,
	"logps/rejected": -351.6214599609375,
	"loss": 0.6746,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": 0.17069143056869507,
	"rewards/margins": 0.07059639692306519,
	"rewards/rejected": 0.10009505599737167,
	"step": 290
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.82209788037494e-06,
	"logits/chosen": -2.283082962036133,
	"logits/rejected": -2.3039584159851074,
	"logps/chosen": -367.76708984375,
	"logps/rejected": -379.209228515625,
	"loss": 0.7081,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.12761621177196503,
	"rewards/margins": 0.001193371368572116,
	"rewards/rejected": 0.12642285227775574,
	"step": 300
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.80214459992139e-06,
	"logits/chosen": -2.297591209411621,
	"logits/rejected": -2.2650771141052246,
	"logps/chosen": -359.8524169921875,
	"logps/rejected": -390.44195556640625,
	"loss": 0.6335,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.07557342946529388,
	"rewards/margins": 0.15836670994758606,
	"rewards/rejected": -0.08279327303171158,
	"step": 310
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.781153508842785e-06,
	"logits/chosen": -2.2711267471313477,
	"logits/rejected": -2.2797353267669678,
	"logps/chosen": -329.4121398925781,
	"logps/rejected": -345.84393310546875,
	"loss": 0.675,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.09101514518260956,
	"rewards/margins": 0.05387691408395767,
	"rewards/rejected": -0.14489206671714783,
	"step": 320
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.759129143607547e-06,
	"logits/chosen": -2.2991256713867188,
	"logits/rejected": -2.1713948249816895,
	"logps/chosen": -373.73992919921875,
	"logps/rejected": -298.8330993652344,
	"loss": 0.6611,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.07734711468219757,
	"rewards/margins": 0.09413515031337738,
	"rewards/rejected": -0.17148226499557495,
	"step": 330
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.736076263989103e-06,
	"logits/chosen": -2.333172559738159,
	"logits/rejected": -2.2931008338928223,
	"logps/chosen": -384.9156188964844,
	"logps/rejected": -363.5679016113281,
	"loss": 0.6449,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.04307403415441513,
	"rewards/margins": 0.1350451558828354,
	"rewards/rejected": -0.09197112172842026,
	"step": 340
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.711999852037226e-06,
	"logits/chosen": -2.3204524517059326,
	"logits/rejected": -2.256392240524292,
	"logps/chosen": -376.4149169921875,
	"logps/rejected": -337.93402099609375,
	"loss": 0.681,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.2001509964466095,
	"rewards/margins": 0.0656595304608345,
	"rewards/rejected": 0.1344914734363556,
	"step": 350
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.68690511100134e-06,
	"logits/chosen": -2.222977638244629,
	"logits/rejected": -2.2059781551361084,
	"logps/chosen": -326.2198181152344,
	"logps/rejected": -322.86907958984375,
	"loss": 0.7169,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.12599822878837585,
	"rewards/margins": -0.01360931433737278,
	"rewards/rejected": 0.13960754871368408,
	"step": 360
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.660797464206035e-06,
	"logits/chosen": -2.2420578002929688,
	"logits/rejected": -2.23136568069458,
	"logps/chosen": -338.4748840332031,
	"logps/rejected": -357.66705322265625,
	"loss": 0.6701,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.26268088817596436,
	"rewards/margins": 0.08094726502895355,
	"rewards/rejected": 0.181733638048172,
	"step": 370
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.633682553879e-06,
	"logits/chosen": -2.276688814163208,
	"logits/rejected": -2.234923839569092,
	"logps/chosen": -317.33599853515625,
	"logps/rejected": -312.63897705078125,
	"loss": 0.6804,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.23342204093933105,
	"rewards/margins": 0.0563444122672081,
	"rewards/rejected": 0.17707762122154236,
	"step": 380
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.605566239931666e-06,
	"logits/chosen": -2.3001625537872314,
	"logits/rejected": -2.2134346961975098,
	"logps/chosen": -357.8388977050781,
	"logps/rejected": -349.38995361328125,
	"loss": 0.6357,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.3796467185020447,
	"rewards/margins": 0.167959064245224,
	"rewards/rejected": 0.21168763935565948,
	"step": 390
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.576454598692797e-06,
	"logits/chosen": -2.296462297439575,
	"logits/rejected": -2.226733922958374,
	"logps/chosen": -358.35015869140625,
	"logps/rejected": -326.0476989746094,
	"loss": 0.6382,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.36672210693359375,
	"rewards/margins": 0.16903677582740784,
	"rewards/rejected": 0.19768527150154114,
	"step": 400
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.546353921595306e-06,
	"logits/chosen": -2.289577007293701,
	"logits/rejected": -2.279940128326416,
	"logps/chosen": -337.85699462890625,
	"logps/rejected": -340.87261962890625,
	"loss": 0.7079,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.3491610884666443,
	"rewards/margins": 0.029783133417367935,
	"rewards/rejected": 0.31937795877456665,
	"step": 410
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.515270713816589e-06,
	"logits/chosen": -2.314282178878784,
	"logits/rejected": -2.1990668773651123,
	"logps/chosen": -380.24554443359375,
	"logps/rejected": -341.0552062988281,
	"loss": 0.6806,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.3242203891277313,
	"rewards/margins": 0.10805626213550568,
	"rewards/rejected": 0.21616414189338684,
	"step": 420
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.483211692872669e-06,
	"logits/chosen": -2.2007763385772705,
	"logits/rejected": -2.1976895332336426,
	"logps/chosen": -307.19464111328125,
	"logps/rejected": -318.5234069824219,
	"loss": 0.7432,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.22343340516090393,
	"rewards/margins": -0.031447634100914,
	"rewards/rejected": 0.25488102436065674,
	"step": 430
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.450183787166447e-06,
	"logits/chosen": -2.1776084899902344,
	"logits/rejected": -2.263404369354248,
	"logps/chosen": -275.30230712890625,
	"logps/rejected": -335.97637939453125,
	"loss": 0.6777,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.10852464288473129,
	"rewards/margins": 0.05528046935796738,
	"rewards/rejected": 0.053244173526763916,
	"step": 440
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.41619413449037e-06,
	"logits/chosen": -2.341031551361084,
	"logits/rejected": -2.2925498485565186,
	"logps/chosen": -387.17315673828125,
	"logps/rejected": -408.65350341796875,
	"loss": 0.6467,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.17925263941287994,
	"rewards/margins": 0.12131942808628082,
	"rewards/rejected": 0.057933200150728226,
	"step": 450
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.381250080483864e-06,
	"logits/chosen": -2.305234432220459,
	"logits/rejected": -2.29388689994812,
	"logps/chosen": -353.67547607421875,
	"logps/rejected": -365.3600769042969,
	"loss": 0.6973,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.020944729447364807,
	"rewards/margins": 0.018988361582159996,
	"rewards/rejected": 0.001956367399543524,
	"step": 460
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.345359177045827e-06,
	"logits/chosen": -2.2121920585632324,
	"logits/rejected": -2.1668667793273926,
	"logps/chosen": -318.66827392578125,
	"logps/rejected": -298.404052734375,
	"loss": 0.672,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.009936051443219185,
	"rewards/margins": 0.07024586200714111,
	"rewards/rejected": -0.08018191158771515,
	"step": 470
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.308529180702568e-06,
	"logits/chosen": -2.2666916847229004,
	"logits/rejected": -2.283783435821533,
	"logps/chosen": -359.14825439453125,
	"logps/rejected": -384.94073486328125,
	"loss": 0.6523,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.030093509703874588,
	"rewards/margins": 0.1233237162232399,
	"rewards/rejected": -0.1534171998500824,
	"step": 480
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.270768050931515e-06,
	"logits/chosen": -2.2703680992126465,
	"logits/rejected": -2.3521008491516113,
	"logps/chosen": -336.55548095703125,
	"logps/rejected": -373.68902587890625,
	"loss": 0.6823,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.19773463904857635,
	"rewards/margins": 0.06342988461256027,
	"rewards/rejected": -0.2611645460128784,
	"step": 490
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.232083948441046e-06,
	"logits/chosen": -2.263096332550049,
	"logits/rejected": -2.1758663654327393,
	"logps/chosen": -366.25714111328125,
	"logps/rejected": -322.65081787109375,
	"loss": 0.6963,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.1464572548866272,
	"rewards/margins": 0.025711650028824806,
	"rewards/rejected": -0.17216889560222626,
	"step": 500
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.192485233406862e-06,
	"logits/chosen": -2.3192970752716064,
	"logits/rejected": -2.3752708435058594,
	"logps/chosen": -383.03753662109375,
	"logps/rejected": -406.3360900878906,
	"loss": 0.6627,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.13319934904575348,
	"rewards/margins": 0.0994311273097992,
	"rewards/rejected": -0.23263044655323029,
	"step": 510
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.151980463665227e-06,
	"logits/chosen": -2.2946994304656982,
	"logits/rejected": -2.2120468616485596,
	"logps/chosen": -390.14434814453125,
	"logps/rejected": -344.0641174316406,
	"loss": 0.6981,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.12970566749572754,
	"rewards/margins": 0.05780962109565735,
	"rewards/rejected": -0.1875152885913849,
	"step": 520
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.1105783928635e-06,
	"logits/chosen": -2.2886319160461426,
	"logits/rejected": -2.2648708820343018,
	"logps/chosen": -373.304931640625,
	"logps/rejected": -381.96368408203125,
	"loss": 0.7022,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.011115001514554024,
	"rewards/margins": 0.03471168875694275,
	"rewards/rejected": -0.04582669958472252,
	"step": 530
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.068287968568355e-06,
	"logits/chosen": -2.2562637329101562,
	"logits/rejected": -2.2379746437072754,
	"logps/chosen": -336.50640869140625,
	"logps/rejected": -369.13037109375,
	"loss": 0.6873,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.1720694601535797,
	"rewards/margins": 0.060669075697660446,
	"rewards/rejected": 0.11140035092830658,
	"step": 540
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.02511833033208e-06,
	"logits/chosen": -2.145764112472534,
	"logits/rejected": -2.1581664085388184,
	"logps/chosen": -320.99456787109375,
	"logps/rejected": -324.7594299316406,
	"loss": 0.6312,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.02777281031012535,
	"rewards/margins": 0.16521447896957397,
	"rewards/rejected": -0.19298730790615082,
	"step": 550
	},
	{
	"epoch": 0.25,
	"learning_rate": 8.981078807717396e-06,
	"logits/chosen": -2.316991090774536,
	"logits/rejected": -2.169630765914917,
	"logps/chosen": -417.3232421875,
	"logps/rejected": -368.39617919921875,
	"loss": 0.6415,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.12395425885915756,
	"rewards/margins": 0.15927435457706451,
	"rewards/rejected": -0.03532009571790695,
	"step": 560
	},
	{
	"epoch": 0.25,
	"learning_rate": 8.936178918281209e-06,
	"logits/chosen": -2.3391947746276855,
	"logits/rejected": -2.359314441680908,
	"logps/chosen": -379.1593322753906,
	"logps/rejected": -404.58868408203125,
	"loss": 0.7159,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": 0.0663943886756897,
	"rewards/margins": -0.007743087597191334,
	"rewards/rejected": 0.07413747161626816,
	"step": 570
	},
	{
	"epoch": 0.26,
	"learning_rate": 8.890428365517728e-06,
	"logits/chosen": -2.3254919052124023,
	"logits/rejected": -2.2909200191497803,
	"logps/chosen": -377.60736083984375,
	"logps/rejected": -365.9610595703125,
	"loss": 0.6832,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.23426219820976257,
	"rewards/margins": 0.05870335176587105,
	"rewards/rejected": 0.17555885016918182,
	"step": 580
	},
	{
	"epoch": 0.26,
	"learning_rate": 8.843837036761404e-06,
	"logits/chosen": -2.247920513153076,
	"logits/rejected": -2.1772730350494385,
	"logps/chosen": -299.9126892089844,
	"logps/rejected": -299.29736328125,
	"loss": 0.6474,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.20609867572784424,
	"rewards/margins": 0.12030823528766632,
	"rewards/rejected": 0.08579044044017792,
	"step": 590
	},
	{
	"epoch": 0.27,
	"learning_rate": 8.796415001050154e-06,
	"logits/chosen": -2.295091152191162,
	"logits/rejected": -2.246346950531006,
	"logps/chosen": -389.3216552734375,
	"logps/rejected": -371.30157470703125,
	"loss": 0.6311,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.25310301780700684,
	"rewards/margins": 0.18558058142662048,
	"rewards/rejected": 0.06752243638038635,
	"step": 600
	},
	{
	"epoch": 0.27,
	"learning_rate": 8.748172506949274e-06,
	"logits/chosen": -2.27669358253479,
	"logits/rejected": -2.1988024711608887,
	"logps/chosen": -326.1456298828125,
	"logps/rejected": -309.17266845703125,
	"loss": 0.6849,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.05873417109251022,
	"rewards/margins": 0.07899702340364456,
	"rewards/rejected": -0.020262856036424637,
	"step": 610
	},
	{
	"epoch": 0.28,
	"learning_rate": 8.699119980336602e-06,
	"logits/chosen": -2.302666187286377,
	"logits/rejected": -2.2827186584472656,
	"logps/chosen": -364.0043640136719,
	"logps/rejected": -372.041748046875,
	"loss": 0.693,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.23366883397102356,
	"rewards/margins": 0.0409202054142952,
	"rewards/rejected": 0.19274859130382538,
	"step": 620
	},
	{
	"epoch": 0.28,
	"learning_rate": 8.649268022149333e-06,
	"logits/chosen": -2.282480001449585,
	"logits/rejected": -2.2400062084198,
	"logps/chosen": -333.30194091796875,
	"logps/rejected": -321.1686096191406,
	"loss": 0.6733,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.3089759349822998,
	"rewards/margins": 0.10994930565357208,
	"rewards/rejected": 0.19902662932872772,
	"step": 630
	},
	{
	"epoch": 0.28,
	"learning_rate": 8.59862740609301e-06,
	"logits/chosen": -2.3325583934783936,
	"logits/rejected": -2.396918535232544,
	"logps/chosen": -383.0022888183594,
	"logps/rejected": -438.1582946777344,
	"loss": 0.6617,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.38308969140052795,
	"rewards/margins": 0.12253421545028687,
	"rewards/rejected": 0.2605554461479187,
	"step": 640
	},
	{
	"epoch": 0.29,
	"learning_rate": 8.547209076313172e-06,
	"logits/chosen": -2.3535332679748535,
	"logits/rejected": -2.3711094856262207,
	"logps/chosen": -378.6181640625,
	"logps/rejected": -433.81005859375,
	"loss": 0.6061,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.33381205797195435,
	"rewards/margins": 0.23929791152477264,
	"rewards/rejected": 0.09451412409543991,
	"step": 650
	},
	{
	"epoch": 0.29,
	"learning_rate": 8.495024145030174e-06,
	"logits/chosen": -2.195960283279419,
	"logits/rejected": -2.2019705772399902,
	"logps/chosen": -330.01177978515625,
	"logps/rejected": -352.898193359375,
	"loss": 0.6155,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.02304258942604065,
	"rewards/margins": 0.21534284949302673,
	"rewards/rejected": -0.23838546872138977,
	"step": 660
	},
	{
	"epoch": 0.3,
	"learning_rate": 8.442083890137678e-06,
	"logits/chosen": -2.2961819171905518,
	"logits/rejected": -2.2526700496673584,
	"logps/chosen": -343.67987060546875,
	"logps/rejected": -348.7483825683594,
	"loss": 0.7059,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.05699265003204346,
	"rewards/margins": 0.0024743645917624235,
	"rewards/rejected": -0.05946701765060425,
	"step": 670
	},
	{
	"epoch": 0.3,
	"learning_rate": 8.388399752765344e-06,
	"logits/chosen": -2.2721645832061768,
	"logits/rejected": -2.2435104846954346,
	"logps/chosen": -377.99664306640625,
	"logps/rejected": -376.784912109375,
	"loss": 0.6238,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.22479982674121857,
	"rewards/margins": 0.24280264973640442,
	"rewards/rejected": -0.4676024317741394,
	"step": 680
	},
	{
	"epoch": 0.31,
	"learning_rate": 8.333983334806248e-06,
	"logits/chosen": -2.2859599590301514,
	"logits/rejected": -2.241246461868286,
	"logps/chosen": -367.9365234375,
	"logps/rejected": -335.52740478515625,
	"loss": 0.6717,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.09134645760059357,
	"rewards/margins": 0.09670265018939972,
	"rewards/rejected": -0.1880491077899933,
	"step": 690
	},
	{
	"epoch": 0.31,
	"learning_rate": 8.278846396409534e-06,
	"logits/chosen": -2.306518077850342,
	"logits/rejected": -2.265807867050171,
	"logps/chosen": -370.5268249511719,
	"logps/rejected": -363.80718994140625,
	"loss": 0.6953,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.02050144411623478,
	"rewards/margins": 0.0992293506860733,
	"rewards/rejected": -0.07872792333364487,
	"step": 700
	},
	{
	"epoch": 0.32,
	"learning_rate": 8.223000853438904e-06,
	"logits/chosen": -2.3641223907470703,
	"logits/rejected": -2.272670269012451,
	"logps/chosen": -395.78509521484375,
	"logps/rejected": -397.1343994140625,
	"loss": 0.6263,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -3.156661841785535e-05,
	"rewards/margins": 0.2341923713684082,
	"rewards/rejected": -0.23422393202781677,
	"step": 710
	},
	{
	"epoch": 0.32,
	"learning_rate": 8.166458774897413e-06,
	"logits/chosen": -2.30328631401062,
	"logits/rejected": -2.234039306640625,
	"logps/chosen": -379.7477722167969,
	"logps/rejected": -355.75677490234375,
	"loss": 0.605,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.024682385846972466,
	"rewards/margins": 0.26411938667297363,
	"rewards/rejected": -0.28880181908607483,
	"step": 720
	},
	{
	"epoch": 0.32,
	"learning_rate": 8.109232380319194e-06,
	"logits/chosen": -2.2999930381774902,
	"logits/rejected": -2.2953243255615234,
	"logps/chosen": -407.1230163574219,
	"logps/rejected": -414.182373046875,
	"loss": 0.7166,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": 0.06269857287406921,
	"rewards/margins": 0.01421293430030346,
	"rewards/rejected": 0.0484856478869915,
	"step": 730
	},
	{
	"epoch": 0.33,
	"learning_rate": 8.051334037128661e-06,
	"logits/chosen": -2.2836692333221436,
	"logits/rejected": -2.2380998134613037,
	"logps/chosen": -332.956787109375,
	"logps/rejected": -330.85601806640625,
	"loss": 0.7164,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.043525341898202896,
	"rewards/margins": 0.0009438946726731956,
	"rewards/rejected": 0.04258145019412041,
	"step": 740
	},
	{
	"epoch": 0.33,
	"learning_rate": 7.99277625796771e-06,
	"logits/chosen": -2.200336217880249,
	"logits/rejected": -2.1876537799835205,
	"logps/chosen": -325.07611083984375,
	"logps/rejected": -318.10784912109375,
	"loss": 0.7158,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.05763138085603714,
	"rewards/margins": 0.018384983763098717,
	"rewards/rejected": -0.0760163813829422,
	"step": 750
	},
	{
	"epoch": 0.34,
	"learning_rate": 7.933571697991582e-06,
	"logits/chosen": -2.3422603607177734,
	"logits/rejected": -2.2664551734924316,
	"logps/chosen": -401.63275146484375,
	"logps/rejected": -351.42767333984375,
	"loss": 0.6953,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.008800688199698925,
	"rewards/margins": 0.04444243758916855,
	"rewards/rejected": -0.05324311926960945,
	"step": 760
	},
	{
	"epoch": 0.34,
	"learning_rate": 7.873733152133898e-06,
	"logits/chosen": -2.2099857330322266,
	"logits/rejected": -2.236807346343994,
	"logps/chosen": -311.5889892578125,
	"logps/rejected": -328.91033935546875,
	"loss": 0.6992,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.11291439831256866,
	"rewards/margins": 0.023546913638710976,
	"rewards/rejected": 0.08936748653650284,
	"step": 770
	},
	{
	"epoch": 0.35,
	"learning_rate": 7.813273552341496e-06,
	"logits/chosen": -2.3059163093566895,
	"logits/rejected": -2.280585527420044,
	"logps/chosen": -330.9400329589844,
	"logps/rejected": -347.64056396484375,
	"loss": 0.6812,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.044351525604724884,
	"rewards/margins": 0.0922970399260521,
	"rewards/rejected": -0.047945525497198105,
	"step": 780
	},
	{
	"epoch": 0.35,
	"learning_rate": 7.75220596477966e-06,
	"logits/chosen": -2.263115644454956,
	"logits/rejected": -2.2254600524902344,
	"logps/chosen": -325.22198486328125,
	"logps/rejected": -316.40875244140625,
	"loss": 0.6262,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": 0.08847782015800476,
	"rewards/margins": 0.24120266735553741,
	"rewards/rejected": -0.15272484719753265,
	"step": 790
	},
	{
	"epoch": 0.36,
	"learning_rate": 7.690543587008332e-06,
	"logits/chosen": -2.2187132835388184,
	"logits/rejected": -2.2646350860595703,
	"logps/chosen": -401.48687744140625,
	"logps/rejected": -387.3714294433594,
	"loss": 0.6596,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.21927690505981445,
	"rewards/margins": 0.1301509588956833,
	"rewards/rejected": 0.08912594616413116,
	"step": 800
	},
	{
	"epoch": 0.36,
	"learning_rate": 7.628299745129943e-06,
	"logits/chosen": -2.2820262908935547,
	"logits/rejected": -2.2334964275360107,
	"logps/chosen": -403.6439208984375,
	"logps/rejected": -374.96270751953125,
	"loss": 0.7398,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.02083228901028633,
	"rewards/margins": -0.01027420163154602,
	"rewards/rejected": -0.010558092966675758,
	"step": 810
	},
	{
	"epoch": 0.36,
	"learning_rate": 7.565487890909448e-06,
	"logits/chosen": -2.322711229324341,
	"logits/rejected": -2.225168466567993,
	"logps/chosen": -337.26605224609375,
	"logps/rejected": -304.8133544921875,
	"loss": 0.6559,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.2134527862071991,
	"rewards/margins": 0.1341491937637329,
	"rewards/rejected": 0.07930360734462738,
	"step": 820
	},
	{
	"epoch": 0.37,
	"learning_rate": 7.502121598867218e-06,
	"logits/chosen": -2.2647910118103027,
	"logits/rejected": -2.2931771278381348,
	"logps/chosen": -353.45660400390625,
	"logps/rejected": -313.0556945800781,
	"loss": 0.6721,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.16318438947200775,
	"rewards/margins": 0.0658370777964592,
	"rewards/rejected": 0.09734731912612915,
	"step": 830
	},
	{
	"epoch": 0.37,
	"learning_rate": 7.438214563345389e-06,
	"logits/chosen": -2.352962017059326,
	"logits/rejected": -2.329225778579712,
	"logps/chosen": -387.4513244628906,
	"logps/rejected": -395.37347412109375,
	"loss": 0.6693,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.19145812094211578,
	"rewards/margins": 0.13347746431827545,
	"rewards/rejected": 0.05798065662384033,
	"step": 840
	},
	{
	"epoch": 0.38,
	"learning_rate": 7.373780595548334e-06,
	"logits/chosen": -2.310203790664673,
	"logits/rejected": -2.2119874954223633,
	"logps/chosen": -377.05657958984375,
	"logps/rejected": -357.82525634765625,
	"loss": 0.7045,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.4518454670906067,
	"rewards/margins": 0.05518758296966553,
	"rewards/rejected": 0.3966578543186188,
	"step": 850
	},
	{
	"epoch": 0.38,
	"learning_rate": 7.3088336205578565e-06,
	"logits/chosen": -2.240410327911377,
	"logits/rejected": -2.215846538543701,
	"logps/chosen": -350.8703308105469,
	"logps/rejected": -368.5628662109375,
	"loss": 0.6456,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.1876397579908371,
	"rewards/margins": 0.16387517750263214,
	"rewards/rejected": 0.0237645972520113,
	"step": 860
	},
	{
	"epoch": 0.39,
	"learning_rate": 7.243387674323794e-06,
	"logits/chosen": -2.2497904300689697,
	"logits/rejected": -2.232779026031494,
	"logps/chosen": -339.3749084472656,
	"logps/rejected": -359.62493896484375,
	"loss": 0.6597,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.22228892147541046,
	"rewards/margins": 0.12651677429676056,
	"rewards/rejected": 0.09577211737632751,
	"step": 870
	},
	{
	"epoch": 0.39,
	"learning_rate": 7.177456900630645e-06,
	"logits/chosen": -2.256024122238159,
	"logits/rejected": -2.2079262733459473,
	"logps/chosen": -340.0914611816406,
	"logps/rejected": -322.68011474609375,
	"loss": 0.5837,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.16695842146873474,
	"rewards/margins": 0.28337720036506653,
	"rewards/rejected": -0.1164187639951706,
	"step": 880
	},
	{
	"epoch": 0.4,
	"learning_rate": 7.111055548040911e-06,
	"logits/chosen": -2.3057608604431152,
	"logits/rejected": -2.2699170112609863,
	"logps/chosen": -389.82611083984375,
	"logps/rejected": -382.68829345703125,
	"loss": 0.5632,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": 0.19717621803283691,
	"rewards/margins": 0.36688321828842163,
	"rewards/rejected": -0.1697070151567459,
	"step": 890
	},
	{
	"epoch": 0.4,
	"learning_rate": 7.044197966815773e-06,
	"logits/chosen": -2.25697922706604,
	"logits/rejected": -2.107326030731201,
	"logps/chosen": -320.3851623535156,
	"logps/rejected": -288.55108642578125,
	"loss": 0.6459,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.034488920122385025,
	"rewards/margins": 0.16461703181266785,
	"rewards/rejected": -0.13012811541557312,
	"step": 900
	},
	{
	"epoch": 0.4,
	"learning_rate": 6.976898605813798e-06,
	"logits/chosen": -2.269026041030884,
	"logits/rejected": -2.305229663848877,
	"logps/chosen": -335.22540283203125,
	"logps/rejected": -391.1421813964844,
	"loss": 0.7153,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.16712869703769684,
	"rewards/margins": 0.05030643194913864,
	"rewards/rejected": 0.1168222427368164,
	"step": 910
	},
	{
	"epoch": 0.41,
	"learning_rate": 6.90917200936835e-06,
	"logits/chosen": -2.202436923980713,
	"logits/rejected": -2.1774916648864746,
	"logps/chosen": -308.787109375,
	"logps/rejected": -331.55987548828125,
	"loss": 0.7907,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.020061034709215164,
	"rewards/margins": -0.09425730258226395,
	"rewards/rejected": 0.07419625669717789,
	"step": 920
	},
	{
	"epoch": 0.41,
	"learning_rate": 6.841032814144345e-06,
	"logits/chosen": -2.2023422718048096,
	"logits/rejected": -2.215259552001953,
	"logps/chosen": -303.5005187988281,
	"logps/rejected": -343.00146484375,
	"loss": 0.6898,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": 0.026828575879335403,
	"rewards/margins": 0.07769123464822769,
	"rewards/rejected": -0.05086265876889229,
	"step": 930
	},
	{
	"epoch": 0.42,
	"learning_rate": 6.772495745975067e-06,
	"logits/chosen": -2.268451452255249,
	"logits/rejected": -2.1880459785461426,
	"logps/chosen": -352.240966796875,
	"logps/rejected": -341.0179748535156,
	"loss": 0.6377,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.02395152859389782,
	"rewards/margins": 0.17894978821277618,
	"rewards/rejected": -0.20290131866931915,
	"step": 940
	},
	{
	"epoch": 0.42,
	"learning_rate": 6.703575616679709e-06,
	"logits/chosen": -2.382638454437256,
	"logits/rejected": -2.3348803520202637,
	"logps/chosen": -395.88372802734375,
	"logps/rejected": -385.67364501953125,
	"loss": 0.6581,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.00013340116129256785,
	"rewards/margins": 0.17107084393501282,
	"rewards/rejected": -0.1709374487400055,
	"step": 950
	},
	{
	"epoch": 0.43,
	"learning_rate": 6.634287320862334e-06,
	"logits/chosen": -2.332146644592285,
	"logits/rejected": -2.196887254714966,
	"logps/chosen": -367.8846435546875,
	"logps/rejected": -342.24224853515625,
	"loss": 0.6204,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.21408149600028992,
	"rewards/margins": 0.27911919355392456,
	"rewards/rejected": -0.06503769755363464,
	"step": 960
	},
	{
	"epoch": 0.43,
	"learning_rate": 6.564645832692938e-06,
	"logits/chosen": -2.2684531211853027,
	"logits/rejected": -2.2622039318084717,
	"logps/chosen": -356.80859375,
	"logps/rejected": -363.5769958496094,
	"loss": 0.7088,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.05582839250564575,
	"rewards/margins": 0.07232120633125305,
	"rewards/rejected": -0.016492802649736404,
	"step": 970
	},
	{
	"epoch": 0.44,
	"learning_rate": 6.494666202671329e-06,
	"logits/chosen": -2.297036647796631,
	"logits/rejected": -2.165566921234131,
	"logps/chosen": -358.6860046386719,
	"logps/rejected": -317.59002685546875,
	"loss": 0.5921,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": 0.30202144384384155,
	"rewards/margins": 0.3027155101299286,
	"rewards/rejected": -0.0006940944003872573,
	"step": 980
	},
	{
	"epoch": 0.44,
	"learning_rate": 6.424363554374496e-06,
	"logits/chosen": -2.3090157508850098,
	"logits/rejected": -2.232266902923584,
	"logps/chosen": -363.88226318359375,
	"logps/rejected": -358.2498779296875,
	"loss": 0.6638,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.47291359305381775,
	"rewards/margins": 0.14908143877983093,
	"rewards/rejected": 0.3238321542739868,
	"step": 990
	},
	{
	"epoch": 0.44,
	"learning_rate": 6.353753081188194e-06,
	"logits/chosen": -2.2434115409851074,
	"logits/rejected": -2.301614284515381,
	"logps/chosen": -314.8789978027344,
	"logps/rejected": -350.7088928222656,
	"loss": 0.727,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.19925834238529205,
	"rewards/margins": 0.04580863565206528,
	"rewards/rejected": 0.15344971418380737,
	"step": 1000
	},
	{
	"epoch": 0.45,
	"learning_rate": 6.28285004302345e-06,
	"logits/chosen": -2.266707420349121,
	"logits/rejected": -2.236722469329834,
	"logps/chosen": -321.0040283203125,
	"logps/rejected": -336.6592102050781,
	"loss": 0.6677,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.1193336620926857,
	"rewards/margins": 0.17302492260932922,
	"rewards/rejected": -0.053691256791353226,
	"step": 1010
	},
	{
	"epoch": 0.45,
	"learning_rate": 6.2116697630186685e-06,
	"logits/chosen": -2.303358554840088,
	"logits/rejected": -2.149106740951538,
	"logps/chosen": -351.23590087890625,
	"logps/rejected": -350.1204833984375,
	"loss": 0.6293,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.17574825882911682,
	"rewards/margins": 0.1902790516614914,
	"rewards/rejected": -0.014530802145600319,
	"step": 1020
	},
	{
	"epoch": 0.46,
	"learning_rate": 6.140227624228098e-06,
	"logits/chosen": -2.375432252883911,
	"logits/rejected": -2.297983169555664,
	"logps/chosen": -366.21368408203125,
	"logps/rejected": -378.6297912597656,
	"loss": 0.6357,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.3224946856498718,
	"rewards/margins": 0.2146320790052414,
	"rewards/rejected": 0.10786261409521103,
	"step": 1030
	},
	{
	"epoch": 0.46,
	"learning_rate": 6.068539066297331e-06,
	"logits/chosen": -2.318620204925537,
	"logits/rejected": -2.2646164894104004,
	"logps/chosen": -367.49298095703125,
	"logps/rejected": -360.1875305175781,
	"loss": 0.6089,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.14375829696655273,
	"rewards/margins": 0.2504768967628479,
	"rewards/rejected": -0.10671859979629517,
	"step": 1040
	},
	{
	"epoch": 0.47,
	"learning_rate": 5.996619582126586e-06,
	"logits/chosen": -2.322288751602173,
	"logits/rejected": -2.3236374855041504,
	"logps/chosen": -367.33343505859375,
	"logps/rejected": -372.8912658691406,
	"loss": 0.7435,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": 0.08361749351024628,
	"rewards/margins": 0.028830815106630325,
	"rewards/rejected": 0.054786670953035355,
	"step": 1050
	},
	{
	"epoch": 0.47,
	"learning_rate": 5.924484714522473e-06,
	"logits/chosen": -2.2468628883361816,
	"logits/rejected": -2.2435338497161865,
	"logps/chosen": -354.2232666015625,
	"logps/rejected": -318.03851318359375,
	"loss": 0.6024,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.1713722050189972,
	"rewards/margins": 0.26503580808639526,
	"rewards/rejected": -0.09366358816623688,
	"step": 1060
	},
	{
	"epoch": 0.48,
	"learning_rate": 5.8521500528389685e-06,
	"logits/chosen": -2.2789225578308105,
	"logits/rejected": -2.250373125076294,
	"logps/chosen": -337.760986328125,
	"logps/rejected": -343.9210510253906,
	"loss": 0.6352,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.043280668556690216,
	"rewards/margins": 0.275790274143219,
	"rewards/rejected": -0.3190709352493286,
	"step": 1070
	},
	{
	"epoch": 0.48,
	"learning_rate": 5.779631229608352e-06,
	"logits/chosen": -2.3031325340270996,
	"logits/rejected": -2.2297275066375732,
	"logps/chosen": -345.22265625,
	"logps/rejected": -361.78680419921875,
	"loss": 0.6227,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.18280446529388428,
	"rewards/margins": 0.2825770378112793,
	"rewards/rejected": -0.09977257996797562,
	"step": 1080
	},
	{
	"epoch": 0.48,
	"learning_rate": 5.706943917162786e-06,
	"logits/chosen": -2.3648791313171387,
	"logits/rejected": -2.2548999786376953,
	"logps/chosen": -348.91815185546875,
	"logps/rejected": -315.13653564453125,
	"loss": 0.6339,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.2526555061340332,
	"rewards/margins": 0.18896642327308655,
	"rewards/rejected": 0.06368909776210785,
	"step": 1090
	},
	{
	"epoch": 0.49,
	"learning_rate": 5.634103824247312e-06,
	"logits/chosen": -2.241288900375366,
	"logits/rejected": -2.208639621734619,
	"logps/chosen": -335.605224609375,
	"logps/rejected": -334.7170715332031,
	"loss": 0.632,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.13065436482429504,
	"rewards/margins": 0.2133084535598755,
	"rewards/rejected": -0.34396281838417053,
	"step": 1100
	},
	{
	"epoch": 0.49,
	"learning_rate": 5.561126692624963e-06,
	"logits/chosen": -2.2892165184020996,
	"logits/rejected": -2.253537178039551,
	"logps/chosen": -380.8193054199219,
	"logps/rejected": -344.45684814453125,
	"loss": 0.677,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.10464837402105331,
	"rewards/margins": 0.13998612761497498,
	"rewards/rejected": -0.035337746143341064,
	"step": 1110
	},
	{
	"epoch": 0.5,
	"learning_rate": 5.488028293674759e-06,
	"logits/chosen": -2.1598775386810303,
	"logits/rejected": -2.3442585468292236,
	"logps/chosen": -295.97161865234375,
	"logps/rejected": -376.0238952636719,
	"loss": 0.6603,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.1714015007019043,
	"rewards/margins": 0.1644255667924881,
	"rewards/rejected": 0.006975936703383923,
	"step": 1120
	},
	{
	"epoch": 0.5,
	"learning_rate": 5.414824424983282e-06,
	"logits/chosen": -2.253049373626709,
	"logits/rejected": -2.313413143157959,
	"logps/chosen": -350.61126708984375,
	"logps/rejected": -394.3390197753906,
	"loss": 0.7526,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.3026641309261322,
	"rewards/margins": 0.06349755823612213,
	"rewards/rejected": -0.3661617040634155,
	"step": 1130
	},
	{
	"epoch": 0.51,
	"learning_rate": 5.341530906930604e-06,
	"logits/chosen": -2.32954740524292,
	"logits/rejected": -2.2630321979522705,
	"logps/chosen": -389.9427185058594,
	"logps/rejected": -338.2027893066406,
	"loss": 0.6504,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.0287860669195652,
	"rewards/margins": 0.21246078610420227,
	"rewards/rejected": -0.18367469310760498,
	"step": 1140
	},
	{
	"epoch": 0.51,
	"learning_rate": 5.268163579271276e-06,
	"logits/chosen": -2.249337673187256,
	"logits/rejected": -2.19362473487854,
	"logps/chosen": -330.29559326171875,
	"logps/rejected": -327.573486328125,
	"loss": 0.644,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.0009714558837004006,
	"rewards/margins": 0.18328654766082764,
	"rewards/rejected": -0.18425801396369934,
	"step": 1150
	},
	{
	"epoch": 0.52,
	"learning_rate": 5.1947382977111374e-06,
	"logits/chosen": -2.2833094596862793,
	"logits/rejected": -2.203212261199951,
	"logps/chosen": -360.40142822265625,
	"logps/rejected": -346.81927490234375,
	"loss": 0.5783,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.05404200404882431,
	"rewards/margins": 0.3619672656059265,
	"rewards/rejected": -0.3079253137111664,
	"step": 1160
	},
	{
	"epoch": 0.52,
	"learning_rate": 5.128619108610792e-06,
	"logits/chosen": -2.310303211212158,
	"logits/rejected": -2.28350567817688,
	"logps/chosen": -339.02398681640625,
	"logps/rejected": -357.2115173339844,
	"loss": 0.6813,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.07422615587711334,
	"rewards/margins": 0.14461743831634521,
	"rewards/rejected": -0.07039125263690948,
	"step": 1170
	},
	{
	"epoch": 0.52,
	"learning_rate": 5.055127439202268e-06,
	"logits/chosen": -2.309981107711792,
	"logits/rejected": -2.2555365562438965,
	"logps/chosen": -339.52301025390625,
	"logps/rejected": -363.42657470703125,
	"loss": 0.5414,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": 0.13452677428722382,
	"rewards/margins": 0.5444313287734985,
	"rewards/rejected": -0.4099045693874359,
	"step": 1180
	},
	{
	"epoch": 0.53,
	"learning_rate": 4.9816238559829586e-06,
	"logits/chosen": -2.371007204055786,
	"logits/rejected": -2.2399134635925293,
	"logps/chosen": -387.3955383300781,
	"logps/rejected": -373.3992919921875,
	"loss": 0.6567,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.04877791926264763,
	"rewards/margins": 0.20018813014030457,
	"rewards/rejected": -0.2489660531282425,
	"step": 1190
	},
	{
	"epoch": 0.53,
	"learning_rate": 4.908124244105435e-06,
	"logits/chosen": -2.1801342964172363,
	"logits/rejected": -2.1720447540283203,
	"logps/chosen": -307.62103271484375,
	"logps/rejected": -318.6053771972656,
	"loss": 0.6848,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.10059481859207153,
	"rewards/margins": 0.0915575847029686,
	"rewards/rejected": -0.19215238094329834,
	"step": 1200
	},
	{
	"epoch": 0.54,
	"learning_rate": 4.834644487864005e-06,
	"logits/chosen": -2.299656391143799,
	"logits/rejected": -2.1939291954040527,
	"logps/chosen": -364.6031188964844,
	"logps/rejected": -340.6778259277344,
	"loss": 0.7091,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.1433655321598053,
	"rewards/margins": 0.1040463000535965,
	"rewards/rejected": 0.039319224655628204,
	"step": 1210
	},
	{
	"epoch": 0.54,
	"learning_rate": 4.7612004672619e-06,
	"logits/chosen": -2.2465157508850098,
	"logits/rejected": -2.142528533935547,
	"logps/chosen": -314.5583801269531,
	"logps/rejected": -273.532470703125,
	"loss": 0.7121,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.00577303022146225,
	"rewards/margins": 0.04662410169839859,
	"rewards/rejected": -0.05239715054631233,
	"step": 1220
	},
	{
	"epoch": 0.55,
	"learning_rate": 4.6878080545793765e-06,
	"logits/chosen": -2.275844097137451,
	"logits/rejected": -2.2758145332336426,
	"logps/chosen": -288.96905517578125,
	"logps/rejected": -304.53265380859375,
	"loss": 0.6788,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.18407993018627167,
	"rewards/margins": 0.13483914732933044,
	"rewards/rejected": 0.049240779131650925,
	"step": 1230
	},
	{
	"epoch": 0.55,
	"learning_rate": 4.614483110943502e-06,
	"logits/chosen": -2.275071620941162,
	"logits/rejected": -2.2525486946105957,
	"logps/chosen": -338.60357666015625,
	"logps/rejected": -337.8529357910156,
	"loss": 0.6597,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.18449342250823975,
	"rewards/margins": 0.14333459734916687,
	"rewards/rejected": 0.04115881025791168,
	"step": 1240
	},
	{
	"epoch": 0.56,
	"learning_rate": 4.54124148290033e-06,
	"logits/chosen": -2.2469890117645264,
	"logits/rejected": -2.2963757514953613,
	"logps/chosen": -312.69677734375,
	"logps/rejected": -368.51220703125,
	"loss": 0.7698,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": 0.211637943983078,
	"rewards/margins": -0.05843405798077583,
	"rewards/rejected": 0.27007198333740234,
	"step": 1250
	},
	{
	"epoch": 0.56,
	"learning_rate": 4.46809899899026e-06,
	"logits/chosen": -2.20833683013916,
	"logits/rejected": -2.240799903869629,
	"logps/chosen": -326.4002380371094,
	"logps/rejected": -338.2776794433594,
	"loss": 0.6814,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.15935859084129333,
	"rewards/margins": 0.09861962497234344,
	"rewards/rejected": 0.060738980770111084,
	"step": 1260
	},
	{
	"epoch": 0.56,
	"learning_rate": 4.395071466327251e-06,
	"logits/chosen": -2.2200393676757812,
	"logits/rejected": -2.200827121734619,
	"logps/chosen": -341.48321533203125,
	"logps/rejected": -320.7751770019531,
	"loss": 0.7204,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": 0.03819073364138603,
	"rewards/margins": 0.06163903325796127,
	"rewards/rejected": -0.023448294028639793,
	"step": 1270
	},
	{
	"epoch": 0.57,
	"learning_rate": 4.322174667182689e-06,
	"logits/chosen": -2.3112101554870605,
	"logits/rejected": -2.1941494941711426,
	"logps/chosen": -381.0555114746094,
	"logps/rejected": -349.847900390625,
	"loss": 0.6448,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.2540966272354126,
	"rewards/margins": 0.23512430489063263,
	"rewards/rejected": 0.018972331658005714,
	"step": 1280
	},
	{
	"epoch": 0.57,
	"learning_rate": 4.249424355574621e-06,
	"logits/chosen": -2.361945629119873,
	"logits/rejected": -2.2803444862365723,
	"logps/chosen": -397.45330810546875,
	"logps/rejected": -377.0959777832031,
	"loss": 0.662,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.18188154697418213,
	"rewards/margins": 0.205190509557724,
	"rewards/rejected": -0.023308951407670975,
	"step": 1290
	},
	{
	"epoch": 0.58,
	"learning_rate": 4.176836253863087e-06,
	"logits/chosen": -2.3127691745758057,
	"logits/rejected": -2.185509443283081,
	"logps/chosen": -359.801025390625,
	"logps/rejected": -326.85382080078125,
	"loss": 0.5858,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.27552157640457153,
	"rewards/margins": 0.30210158228874207,
	"rewards/rejected": -0.02657998725771904,
	"step": 1300
	},
	{
	"epoch": 0.58,
	"learning_rate": 4.1044260493523005e-06,
	"logits/chosen": -2.219707727432251,
	"logits/rejected": -2.2081971168518066,
	"logps/chosen": -325.4644775390625,
	"logps/rejected": -309.3984069824219,
	"loss": 0.6114,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.29091349244117737,
	"rewards/margins": 0.2537664771080017,
	"rewards/rejected": 0.037146955728530884,
	"step": 1310
	},
	{
	"epoch": 0.59,
	"learning_rate": 4.0322093909003965e-06,
	"logits/chosen": -2.3424715995788574,
	"logits/rejected": -2.328320026397705,
	"logps/chosen": -369.3295593261719,
	"logps/rejected": -420.92987060546875,
	"loss": 0.5449,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.4485898017883301,
	"rewards/margins": 0.42458122968673706,
	"rewards/rejected": 0.02400858886539936,
	"step": 1320
	},
	{
	"epoch": 0.59,
	"learning_rate": 3.960201885537504e-06,
	"logits/chosen": -2.341200113296509,
	"logits/rejected": -2.253725528717041,
	"logps/chosen": -372.42633056640625,
	"logps/rejected": -400.0967102050781,
	"loss": 0.642,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.38997507095336914,
	"rewards/margins": 0.22686178982257843,
	"rewards/rejected": 0.16311326622962952,
	"step": 1330
	},
	{
	"epoch": 0.6,
	"learning_rate": 3.888419095092843e-06,
	"logits/chosen": -2.2710628509521484,
	"logits/rejected": -2.3019535541534424,
	"logps/chosen": -336.04296875,
	"logps/rejected": -364.0369873046875,
	"loss": 0.6737,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.08392750471830368,
	"rewards/margins": 0.1348566859960556,
	"rewards/rejected": -0.05092918127775192,
	"step": 1340
	},
	{
	"epoch": 0.6,
	"learning_rate": 3.816876532831595e-06,
	"logits/chosen": -2.1317548751831055,
	"logits/rejected": -2.1478095054626465,
	"logps/chosen": -297.4999084472656,
	"logps/rejected": -314.2597961425781,
	"loss": 0.6427,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.07686291635036469,
	"rewards/margins": 0.2395528256893158,
	"rewards/rejected": -0.16268989443778992,
	"step": 1350
	},
	{
	"epoch": 0.6,
	"learning_rate": 3.7455896601022677e-06,
	"logits/chosen": -2.2463011741638184,
	"logits/rejected": -2.130866527557373,
	"logps/chosen": -333.47564697265625,
	"logps/rejected": -299.1008605957031,
	"loss": 0.6625,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.01470687985420227,
	"rewards/margins": 0.15500742197036743,
	"rewards/rejected": -0.14030054211616516,
	"step": 1360
	},
	{
	"epoch": 0.61,
	"learning_rate": 3.6745738829952928e-06,
	"logits/chosen": -2.3302998542785645,
	"logits/rejected": -2.3339765071868896,
	"logps/chosen": -378.35498046875,
	"logps/rejected": -410.18035888671875,
	"loss": 0.6558,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.3636806905269623,
	"rewards/margins": 0.19609752297401428,
	"rewards/rejected": 0.1675831824541092,
	"step": 1370
	},
	{
	"epoch": 0.61,
	"learning_rate": 3.6038445490135354e-06,
	"logits/chosen": -2.3522942066192627,
	"logits/rejected": -2.3492603302001953,
	"logps/chosen": -387.61297607421875,
	"logps/rejected": -422.75054931640625,
	"loss": 0.6802,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.4821054935455322,
	"rewards/margins": 0.14728207886219025,
	"rewards/rejected": 0.3348234295845032,
	"step": 1380
	},
	{
	"epoch": 0.62,
	"learning_rate": 3.5334169437555e-06,
	"logits/chosen": -2.2042317390441895,
	"logits/rejected": -2.272881507873535,
	"logps/chosen": -345.3319396972656,
	"logps/rejected": -344.2694091796875,
	"loss": 0.6958,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.11976834386587143,
	"rewards/margins": 0.10411565005779266,
	"rewards/rejected": 0.015652697533369064,
	"step": 1390
	},
	{
	"epoch": 0.62,
	"learning_rate": 3.4633062876118915e-06,
	"logits/chosen": -2.310586452484131,
	"logits/rejected": -2.2318148612976074,
	"logps/chosen": -339.42095947265625,
	"logps/rejected": -339.2361755371094,
	"loss": 0.6279,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.20746886730194092,
	"rewards/margins": 0.2241462916135788,
	"rewards/rejected": -0.01667742058634758,
	"step": 1400
	},
	{
	"epoch": 0.63,
	"learning_rate": 3.3935277324762807e-06,
	"logits/chosen": -2.2938754558563232,
	"logits/rejected": -2.3304316997528076,
	"logps/chosen": -349.04547119140625,
	"logps/rejected": -412.75042724609375,
	"loss": 0.6163,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.04044444486498833,
	"rewards/margins": 0.25089383125305176,
	"rewards/rejected": -0.21044941246509552,
	"step": 1410
	},
	{
	"epoch": 0.63,
	"learning_rate": 3.324096358470559e-06,
	"logits/chosen": -2.298367977142334,
	"logits/rejected": -2.2703890800476074,
	"logps/chosen": -365.79571533203125,
	"logps/rejected": -372.6152038574219,
	"loss": 0.6579,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.16013844311237335,
	"rewards/margins": 0.23061330616474152,
	"rewards/rejected": -0.07047487795352936,
	"step": 1420
	},
	{
	"epoch": 0.64,
	"learning_rate": 3.255027170685922e-06,
	"logits/chosen": -2.271730422973633,
	"logits/rejected": -2.305053234100342,
	"logps/chosen": -379.85321044921875,
	"logps/rejected": -405.1103515625,
	"loss": 0.717,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.14956679940223694,
	"rewards/margins": 0.06124185770750046,
	"rewards/rejected": 0.08832494169473648,
	"step": 1430
	},
	{
	"epoch": 0.64,
	"learning_rate": 3.186335095940058e-06,
	"logits/chosen": -2.3461501598358154,
	"logits/rejected": -2.1821436882019043,
	"logps/chosen": -382.0367736816406,
	"logps/rejected": -337.6816101074219,
	"loss": 0.6432,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.07416114211082458,
	"rewards/margins": 0.22856464982032776,
	"rewards/rejected": -0.15440352261066437,
	"step": 1440
	},
	{
	"epoch": 0.64,
	"learning_rate": 3.1180349795512478e-06,
	"logits/chosen": -2.333571434020996,
	"logits/rejected": -2.2108778953552246,
	"logps/chosen": -364.5013427734375,
	"logps/rejected": -348.1319580078125,
	"loss": 0.6229,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.042986027896404266,
	"rewards/margins": 0.23882392048835754,
	"rewards/rejected": -0.19583788514137268,
	"step": 1450
	},
	{
	"epoch": 0.65,
	"learning_rate": 3.050141582130093e-06,
	"logits/chosen": -2.19138765335083,
	"logits/rejected": -2.2427496910095215,
	"logps/chosen": -337.9814147949219,
	"logps/rejected": -330.500244140625,
	"loss": 0.7066,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.053582824766635895,
	"rewards/margins": 0.07893103361129761,
	"rewards/rejected": -0.025348205119371414,
	"step": 1460
	},
	{
	"epoch": 0.65,
	"learning_rate": 2.982669576389533e-06,
	"logits/chosen": -2.296982526779175,
	"logits/rejected": -2.2845733165740967,
	"logps/chosen": -310.3797912597656,
	"logps/rejected": -309.05975341796875,
	"loss": 0.6881,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": 0.22653362154960632,
	"rewards/margins": 0.06024567037820816,
	"rewards/rejected": 0.16628797352313995,
	"step": 1470
	},
	{
	"epoch": 0.66,
	"learning_rate": 2.9156335439738705e-06,
	"logits/chosen": -2.285391092300415,
	"logits/rejected": -2.3086414337158203,
	"logps/chosen": -373.62628173828125,
	"logps/rejected": -386.38092041015625,
	"loss": 0.7604,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.023256815969944,
	"rewards/margins": -0.014189457520842552,
	"rewards/rejected": 0.037446290254592896,
	"step": 1480
	},
	{
	"epoch": 0.66,
	"learning_rate": 2.84904797230748e-06,
	"logits/chosen": -2.2920703887939453,
	"logits/rejected": -2.2386538982391357,
	"logps/chosen": -336.79888916015625,
	"logps/rejected": -377.5654296875,
	"loss": 0.5965,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.3767642080783844,
	"rewards/margins": 0.3530300557613373,
	"rewards/rejected": 0.02373412624001503,
	"step": 1490
	},
	{
	"epoch": 0.67,
	"learning_rate": 2.782927251463854e-06,
	"logits/chosen": -2.2349536418914795,
	"logits/rejected": -2.246170997619629,
	"logps/chosen": -326.43084716796875,
	"logps/rejected": -355.4977111816406,
	"loss": 0.6291,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.12856540083885193,
	"rewards/margins": 0.2676551938056946,
	"rewards/rejected": -0.13908980786800385,
	"step": 1500
	},
	{
	"epoch": 0.67,
	"learning_rate": 2.717285671055733e-06,
	"logits/chosen": -2.2831931114196777,
	"logits/rejected": -2.2716732025146484,
	"logps/chosen": -339.9261474609375,
	"logps/rejected": -372.9583740234375,
	"loss": 0.6354,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.0657893493771553,
	"rewards/margins": 0.23048046231269836,
	"rewards/rejected": -0.29626980423927307,
	"step": 1510
	},
	{
	"epoch": 0.68,
	"learning_rate": 2.652137417146897e-06,
	"logits/chosen": -2.327761173248291,
	"logits/rejected": -2.1530885696411133,
	"logps/chosen": -351.7103271484375,
	"logps/rejected": -321.41046142578125,
	"loss": 0.7653,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.15571951866149902,
	"rewards/margins": -0.01952260732650757,
	"rewards/rejected": -0.13619689643383026,
	"step": 1520
	},
	{
	"epoch": 0.68,
	"learning_rate": 2.587496569186378e-06,
	"logits/chosen": -2.283737897872925,
	"logits/rejected": -2.2826638221740723,
	"logps/chosen": -369.670654296875,
	"logps/rejected": -380.65460205078125,
	"loss": 0.6403,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.06505627185106277,
	"rewards/margins": 0.1945182979106903,
	"rewards/rejected": -0.12946203351020813,
	"step": 1530
	},
	{
	"epoch": 0.68,
	"learning_rate": 2.5233770969656703e-06,
	"logits/chosen": -2.2368502616882324,
	"logits/rejected": -2.2161707878112793,
	"logps/chosen": -331.0984191894531,
	"logps/rejected": -336.10040283203125,
	"loss": 0.6759,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.1922999769449234,
	"rewards/margins": 0.1443178653717041,
	"rewards/rejected": 0.04798208177089691,
	"step": 1540
	},
	{
	"epoch": 0.69,
	"learning_rate": 2.4597928575996917e-06,
	"logits/chosen": -2.2817587852478027,
	"logits/rejected": -2.2737059593200684,
	"logps/chosen": -369.1025085449219,
	"logps/rejected": -396.74005126953125,
	"loss": 0.652,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.08208617568016052,
	"rewards/margins": 0.25736135244369507,
	"rewards/rejected": -0.17527517676353455,
	"step": 1550
	},
	{
	"epoch": 0.69,
	"learning_rate": 2.3967575925320417e-06,
	"logits/chosen": -2.362391471862793,
	"logits/rejected": -2.2530202865600586,
	"logps/chosen": -362.65301513671875,
	"logps/rejected": -345.89776611328125,
	"loss": 0.6438,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.2820921540260315,
	"rewards/margins": 0.289219468832016,
	"rewards/rejected": -0.007127317134290934,
	"step": 1560
	},
	{
	"epoch": 0.7,
	"learning_rate": 2.334284924565307e-06,
	"logits/chosen": -2.2167036533355713,
	"logits/rejected": -2.187164068222046,
	"logps/chosen": -322.52410888671875,
	"logps/rejected": -329.1834716796875,
	"loss": 0.6609,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.04885543882846832,
	"rewards/margins": 0.21874144673347473,
	"rewards/rejected": -0.16988599300384521,
	"step": 1570
	},
	{
	"epoch": 0.7,
	"learning_rate": 2.2723883549169546e-06,
	"logits/chosen": -2.2128214836120605,
	"logits/rejected": -2.1517386436462402,
	"logps/chosen": -297.3167419433594,
	"logps/rejected": -319.46826171875,
	"loss": 0.6695,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.1534380465745926,
	"rewards/margins": 0.17669746279716492,
	"rewards/rejected": -0.02325943298637867,
	"step": 1580
	},
	{
	"epoch": 0.71,
	"learning_rate": 2.211081260301559e-06,
	"logits/chosen": -2.2383880615234375,
	"logits/rejected": -2.152236223220825,
	"logps/chosen": -321.6248474121094,
	"logps/rejected": -295.3414001464844,
	"loss": 0.6343,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.2368522584438324,
	"rewards/margins": 0.21582520008087158,
	"rewards/rejected": 0.021027065813541412,
	"step": 1590
	},
	{
	"epoch": 0.71,
	"learning_rate": 2.150376890039888e-06,
	"logits/chosen": -2.142472743988037,
	"logits/rejected": -2.2683558464050293,
	"logps/chosen": -304.2695007324219,
	"logps/rejected": -381.8064270019531,
	"loss": 0.6457,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.05382103472948074,
	"rewards/margins": 0.231169655919075,
	"rewards/rejected": -0.17734862864017487,
	"step": 1600
	},
	{
	"epoch": 0.72,
	"learning_rate": 2.090288363195546e-06,
	"logits/chosen": -2.301752805709839,
	"logits/rejected": -2.245049476623535,
	"logps/chosen": -360.19940185546875,
	"logps/rejected": -344.0550231933594,
	"loss": 0.6983,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.1819063127040863,
	"rewards/margins": 0.07504500448703766,
	"rewards/rejected": 0.10686129331588745,
	"step": 1610
	},
	{
	"epoch": 0.72,
	"learning_rate": 2.0308286657397586e-06,
	"logits/chosen": -2.1193668842315674,
	"logits/rejected": -2.279275417327881,
	"logps/chosen": -290.13494873046875,
	"logps/rejected": -304.28460693359375,
	"loss": 0.6585,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.014680122956633568,
	"rewards/margins": 0.12039873749017715,
	"rewards/rejected": -0.13507884740829468,
	"step": 1620
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.972010647744929e-06,
	"logits/chosen": -2.2673816680908203,
	"logits/rejected": -2.23976731300354,
	"logps/chosen": -359.8111267089844,
	"logps/rejected": -389.32012939453125,
	"loss": 0.6393,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.1408449113368988,
	"rewards/margins": 0.20818281173706055,
	"rewards/rejected": -0.34902772307395935,
	"step": 1630
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.9138470206075468e-06,
	"logits/chosen": -2.260129690170288,
	"logits/rejected": -2.1876485347747803,
	"logps/chosen": -349.2674560546875,
	"logps/rejected": -373.29351806640625,
	"loss": 0.6647,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.08648316562175751,
	"rewards/margins": 0.13312320411205292,
	"rewards/rejected": -0.21960635483264923,
	"step": 1640
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.8563503543010847e-06,
	"logits/chosen": -2.2733237743377686,
	"logits/rejected": -2.239638090133667,
	"logps/chosen": -357.602294921875,
	"logps/rejected": -358.47900390625,
	"loss": 0.6549,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.038054175674915314,
	"rewards/margins": 0.20417292416095734,
	"rewards/rejected": -0.1661187708377838,
	"step": 1650
	},
	{
	"epoch": 0.74,
	"learning_rate": 1.7995330746594492e-06,
	"logits/chosen": -2.2824442386627197,
	"logits/rejected": -2.319239854812622,
	"logps/chosen": -335.9391174316406,
	"logps/rejected": -376.009765625,
	"loss": 0.7277,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.06412219256162643,
	"rewards/margins": 0.0529680959880352,
	"rewards/rejected": -0.11709029972553253,
	"step": 1660
	},
	{
	"epoch": 0.74,
	"learning_rate": 1.7434074606915908e-06,
	"logits/chosen": -2.2410006523132324,
	"logits/rejected": -2.2910315990448,
	"logps/chosen": -366.2132263183594,
	"logps/rejected": -422.5810546875,
	"loss": 0.6248,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.1538994014263153,
	"rewards/margins": 0.33952516317367554,
	"rewards/rejected": -0.185625821352005,
	"step": 1670
	},
	{
	"epoch": 0.75,
	"learning_rate": 1.687985641927819e-06,
	"logits/chosen": -2.3636865615844727,
	"logits/rejected": -2.2147748470306396,
	"logps/chosen": -360.6214294433594,
	"logps/rejected": -323.7347412109375,
	"loss": 0.622,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.18724626302719116,
	"rewards/margins": 0.2453027069568634,
	"rewards/rejected": -0.05805645138025284,
	"step": 1680
	},
	{
	"epoch": 0.75,
	"learning_rate": 1.6332795957984688e-06,
	"logits/chosen": -2.2480177879333496,
	"logits/rejected": -2.2115044593811035,
	"logps/chosen": -352.7060852050781,
	"logps/rejected": -360.0293884277344,
	"loss": 0.6535,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.05413411930203438,
	"rewards/margins": 0.20770862698554993,
	"rewards/rejected": -0.2618427276611328,
	"step": 1690
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.5793011450453854e-06,
	"logits/chosen": -2.230503797531128,
	"logits/rejected": -2.2694289684295654,
	"logps/chosen": -292.1943664550781,
	"logps/rejected": -338.814453125,
	"loss": 0.7215,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.112449049949646,
	"rewards/margins": 0.08113683760166168,
	"rewards/rejected": -0.19358590245246887,
	"step": 1700
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.5260619551668842e-06,
	"logits/chosen": -2.186260461807251,
	"logits/rejected": -2.3265433311462402,
	"logps/chosen": -315.28778076171875,
	"logps/rejected": -363.6637268066406,
	"loss": 0.7206,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.10357306897640228,
	"rewards/margins": 0.0456685833632946,
	"rewards/rejected": -0.14924165606498718,
	"step": 1710
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.4735735318966521e-06,
	"logits/chosen": -2.338139772415161,
	"logits/rejected": -2.1299831867218018,
	"logps/chosen": -330.22796630859375,
	"logps/rejected": -297.2973327636719,
	"loss": 0.644,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.05218541622161865,
	"rewards/margins": 0.25528091192245483,
	"rewards/rejected": -0.20309551060199738,
	"step": 1720
	},
	{
	"epoch": 0.77,
	"learning_rate": 1.4218472187172212e-06,
	"logits/chosen": -2.1943013668060303,
	"logits/rejected": -2.255190372467041,
	"logps/chosen": -294.1163024902344,
	"logps/rejected": -333.59228515625,
	"loss": 0.6324,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.09838038682937622,
	"rewards/margins": 0.21084125339984894,
	"rewards/rejected": -0.30922168493270874,
	"step": 1730
	},
	{
	"epoch": 0.77,
	"learning_rate": 1.3708941944084636e-06,
	"logits/chosen": -2.3456058502197266,
	"logits/rejected": -2.361806631088257,
	"logps/chosen": -406.53094482421875,
	"logps/rejected": -447.1785583496094,
	"loss": 0.6449,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.2680016756057739,
	"rewards/margins": 0.210541769862175,
	"rewards/rejected": 0.057459909468889236,
	"step": 1740
	},
	{
	"epoch": 0.78,
	"learning_rate": 1.3207254706317174e-06,
	"logits/chosen": -2.276390790939331,
	"logits/rejected": -2.296130657196045,
	"logps/chosen": -342.73260498046875,
	"logps/rejected": -360.7101135253906,
	"loss": 0.6452,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.1815967857837677,
	"rewards/margins": 0.2110695093870163,
	"rewards/rejected": -0.029472723603248596,
	"step": 1750
	},
	{
	"epoch": 0.78,
	"learning_rate": 1.2713518895499932e-06,
	"logits/chosen": -2.2506117820739746,
	"logits/rejected": -2.1966030597686768,
	"logps/chosen": -328.85302734375,
	"logps/rejected": -346.61041259765625,
	"loss": 0.6133,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.16987404227256775,
	"rewards/margins": 0.2849760055541992,
	"rewards/rejected": -0.45485004782676697,
	"step": 1760
	},
	{
	"epoch": 0.79,
	"learning_rate": 1.2227841214848519e-06,
	"logits/chosen": -2.3572230339050293,
	"logits/rejected": -2.241999387741089,
	"logps/chosen": -386.4831237792969,
	"logps/rejected": -324.4116516113281,
	"loss": 0.623,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.19086837768554688,
	"rewards/margins": 0.23254597187042236,
	"rewards/rejected": -0.04167759045958519,
	"step": 1770
	},
	{
	"epoch": 0.79,
	"learning_rate": 1.175032662610383e-06,
	"logits/chosen": -2.384322166442871,
	"logits/rejected": -2.372183322906494,
	"logps/chosen": -379.8897705078125,
	"logps/rejected": -384.9872131347656,
	"loss": 0.6472,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.13912078738212585,
	"rewards/margins": 0.1807091236114502,
	"rewards/rejected": -0.041588325053453445,
	"step": 1780
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.1281078326848438e-06,
	"logits/chosen": -2.2786386013031006,
	"logits/rejected": -2.2903854846954346,
	"logps/chosen": -342.7461242675781,
	"logps/rejected": -383.90411376953125,
	"loss": 0.5802,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": 0.15179908275604248,
	"rewards/margins": 0.4043292999267578,
	"rewards/rejected": -0.25253021717071533,
	"step": 1790
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.0820197728204085e-06,
	"logits/chosen": -2.235412120819092,
	"logits/rejected": -2.1771421432495117,
	"logps/chosen": -336.4576721191406,
	"logps/rejected": -346.7325744628906,
	"loss": 0.6903,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.0932273119688034,
	"rewards/margins": 0.12401854991912842,
	"rewards/rejected": -0.03079124726355076,
	"step": 1800
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.0367784432915407e-06,
	"logits/chosen": -2.2605013847351074,
	"logits/rejected": -2.2363693714141846,
	"logps/chosen": -337.21728515625,
	"logps/rejected": -330.5986633300781,
	"loss": 0.6855,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.2193947285413742,
	"rewards/margins": 0.11095724254846573,
	"rewards/rejected": 0.10843745619058609,
	"step": 1810
	},
	{
	"epoch": 0.81,
	"learning_rate": 9.923936213824297e-07,
	"logits/chosen": -2.387052297592163,
	"logits/rejected": -2.2252724170684814,
	"logps/chosen": -368.71881103515625,
	"logps/rejected": -402.789794921875,
	"loss": 0.6306,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.32878467440605164,
	"rewards/margins": 0.26738250255584717,
	"rewards/rejected": 0.06140219047665596,
	"step": 1820
	},
	{
	"epoch": 0.81,
	"learning_rate": 9.488748992739877e-07,
	"logits/chosen": -2.2936031818389893,
	"logits/rejected": -2.3079075813293457,
	"logps/chosen": -340.22430419921875,
	"logps/rejected": -390.5373840332031,
	"loss": 0.653,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.11492462456226349,
	"rewards/margins": 0.22790834307670593,
	"rewards/rejected": -0.11298371851444244,
	"step": 1830
	},
	{
	"epoch": 0.82,
	"learning_rate": 9.062316819708427e-07,
	"logits/chosen": -2.26062273979187,
	"logits/rejected": -2.2534077167510986,
	"logps/chosen": -323.99554443359375,
	"logps/rejected": -343.2364501953125,
	"loss": 0.6792,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.07681259512901306,
	"rewards/margins": 0.13750119507312775,
	"rewards/rejected": -0.2143137902021408,
	"step": 1840
	},
	{
	"epoch": 0.82,
	"learning_rate": 8.644731852687904e-07,
	"logits/chosen": -2.1960670948028564,
	"logits/rejected": -2.252990245819092,
	"logps/chosen": -338.3189392089844,
	"logps/rejected": -409.77947998046875,
	"loss": 0.6429,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.027236556634306908,
	"rewards/margins": 0.200010746717453,
	"rewards/rejected": -0.22724728286266327,
	"step": 1850
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.236084337631256e-07,
	"logits/chosen": -2.269155502319336,
	"logits/rejected": -2.2297897338867188,
	"logps/chosen": -350.8360900878906,
	"logps/rejected": -349.05743408203125,
	"loss": 0.618,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.03905141353607178,
	"rewards/margins": 0.2928921580314636,
	"rewards/rejected": -0.25384077429771423,
	"step": 1860
	},
	{
	"epoch": 0.83,
	"learning_rate": 7.836462588983029e-07,
	"logits/chosen": -2.2999212741851807,
	"logits/rejected": -2.2945046424865723,
	"logps/chosen": -331.8743896484375,
	"logps/rejected": -358.82427978515625,
	"loss": 0.6854,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": 0.007713166065514088,
	"rewards/margins": 0.15347187221050262,
	"rewards/rejected": -0.1457587033510208,
	"step": 1870
	},
	{
	"epoch": 0.84,
	"learning_rate": 7.445952970593401e-07,
	"logits/chosen": -2.292762517929077,
	"logits/rejected": -2.2326605319976807,
	"logps/chosen": -368.51123046875,
	"logps/rejected": -343.02362060546875,
	"loss": 0.7055,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.138399139046669,
	"rewards/margins": 0.1448075920343399,
	"rewards/rejected": -0.2832067608833313,
	"step": 1880
	},
	{
	"epoch": 0.84,
	"learning_rate": 7.064639877053753e-07,
	"logits/chosen": -2.2553770542144775,
	"logits/rejected": -2.1739296913146973,
	"logps/chosen": -347.02081298828125,
	"logps/rejected": -329.3694152832031,
	"loss": 0.7244,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.0695744976401329,
	"rewards/margins": 0.0453006774187088,
	"rewards/rejected": -0.1148751750588417,
	"step": 1890
	},
	{
	"epoch": 0.84,
	"learning_rate": 6.692605715457734e-07,
	"logits/chosen": -2.296112537384033,
	"logits/rejected": -2.2227189540863037,
	"logps/chosen": -335.0692443847656,
	"logps/rejected": -342.08563232421875,
	"loss": 0.6636,
	"rewards/accuracies": 0.5,
	"rewards/chosen": 0.09152424335479736,
	"rewards/margins": 0.14057905972003937,
	"rewards/rejected": -0.049054812639951706,
	"step": 1900
	},
	{
	"epoch": 0.85,
	"learning_rate": 6.329930887592067e-07,
	"logits/chosen": -2.277210235595703,
	"logits/rejected": -2.263932704925537,
	"logps/chosen": -373.13623046875,
	"logps/rejected": -398.31329345703125,
	"loss": 0.6006,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.10486678779125214,
	"rewards/margins": 0.2877123951911926,
	"rewards/rejected": -0.39257916808128357,
	"step": 1910
	},
	{
	"epoch": 0.85,
	"learning_rate": 5.976693772560487e-07,
	"logits/chosen": -2.3237483501434326,
	"logits/rejected": -2.283463716506958,
	"logps/chosen": -397.46905517578125,
	"logps/rejected": -399.92266845703125,
	"loss": 0.6716,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.03626967594027519,
	"rewards/margins": 0.20212960243225098,
	"rewards/rejected": -0.23839926719665527,
	"step": 1920
	},
	{
	"epoch": 0.86,
	"learning_rate": 5.632970709844976e-07,
	"logits/chosen": -2.2484121322631836,
	"logits/rejected": -2.2332425117492676,
	"logps/chosen": -352.50372314453125,
	"logps/rejected": -382.41290283203125,
	"loss": 0.7484,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.20201630890369415,
	"rewards/margins": 0.06586066633462906,
	"rewards/rejected": -0.2678769528865814,
	"step": 1930
	},
	{
	"epoch": 0.86,
	"learning_rate": 5.298835982807704e-07,
	"logits/chosen": -2.324031352996826,
	"logits/rejected": -2.2343201637268066,
	"logps/chosen": -387.73211669921875,
	"logps/rejected": -355.9978942871094,
	"loss": 0.7038,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": 0.11137855052947998,
	"rewards/margins": 0.1095174103975296,
	"rewards/rejected": 0.0018611550331115723,
	"step": 1940
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.974361802637395e-07,
	"logits/chosen": -2.3116257190704346,
	"logits/rejected": -2.272489070892334,
	"logps/chosen": -362.0296325683594,
	"logps/rejected": -368.2407531738281,
	"loss": 0.6696,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.055863846093416214,
	"rewards/margins": 0.1546260416507721,
	"rewards/rejected": -0.2104898989200592,
	"step": 1950
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.6596182927434395e-07,
	"logits/chosen": -2.2587242126464844,
	"logits/rejected": -2.2343411445617676,
	"logps/chosen": -326.1157531738281,
	"logps/rejected": -347.9691162109375,
	"loss": 0.652,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.12903109192848206,
	"rewards/margins": 0.13124972581863403,
	"rewards/rejected": -0.2602807879447937,
	"step": 1960
	},
	{
	"epoch": 0.88,
	"learning_rate": 4.354673473601251e-07,
	"logits/chosen": -2.249849557876587,
	"logits/rejected": -2.1856112480163574,
	"logps/chosen": -350.0913391113281,
	"logps/rejected": -357.5381774902344,
	"loss": 0.6364,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.04396069794893265,
	"rewards/margins": 0.2554934620857239,
	"rewards/rejected": -0.21153274178504944,
	"step": 1970
	},
	{
	"epoch": 0.88,
	"learning_rate": 4.059593248052107e-07,
	"logits/chosen": -2.270174741744995,
	"logits/rejected": -2.214571475982666,
	"logps/chosen": -363.952880859375,
	"logps/rejected": -363.4573974609375,
	"loss": 0.5834,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": 0.0837903842329979,
	"rewards/margins": 0.3650640845298767,
	"rewards/rejected": -0.2812737226486206,
	"step": 1980
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.774441387060634e-07,
	"logits/chosen": -2.3621678352355957,
	"logits/rejected": -2.304919719696045,
	"logps/chosen": -411.8487854003906,
	"logps/rejected": -410.06671142578125,
	"loss": 0.6429,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": 0.14407065510749817,
	"rewards/margins": 0.2489246129989624,
	"rewards/rejected": -0.10485398769378662,
	"step": 1990
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.4992795159329516e-07,
	"logits/chosen": -2.3314731121063232,
	"logits/rejected": -2.2980003356933594,
	"logps/chosen": -380.12017822265625,
	"logps/rejected": -410.78887939453125,
	"loss": 0.6918,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.10951967537403107,
	"rewards/margins": 0.07033322751522064,
	"rewards/rejected": 0.03918645530939102,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 2250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}