{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.0,
  "eval_steps": 5,
  "global_step": 120,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1694915254237288,
      "grad_norm": 2.790442705154419,
      "learning_rate": 1.6666666666666664e-08,
      "log_odds_chosen": 0.5680092573165894,
      "log_odds_ratio": -0.5170037746429443,
      "logits/chosen": -0.5872289538383484,
      "logits/rejected": -0.1308290660381317,
      "logps/chosen": -1.1121927499771118,
      "logps/rejected": -1.5295088291168213,
      "loss": 1.2668,
      "nll_loss": 1.2151492834091187,
      "rewards/accuracies": 0.8374999761581421,
      "rewards/chosen": -0.11121927201747894,
      "rewards/margins": 0.04173160716891289,
      "rewards/rejected": -0.15295089781284332,
      "step": 5
    },
    {
      "epoch": 0.1694915254237288,
      "eval_log_odds_chosen": 0.344593346118927,
      "eval_log_odds_ratio": -0.6202001571655273,
      "eval_logits/chosen": -0.8292851448059082,
      "eval_logits/rejected": -0.7480515837669373,
      "eval_logps/chosen": -1.200099229812622,
      "eval_logps/rejected": -1.4381370544433594,
      "eval_loss": 1.3301414251327515,
      "eval_nll_loss": 1.310793399810791,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.12000991404056549,
      "eval_rewards/margins": 0.023803792893886566,
      "eval_rewards/rejected": -0.14381369948387146,
      "eval_runtime": 2.2841,
      "eval_samples_per_second": 6.567,
      "eval_steps_per_second": 1.751,
      "step": 5
    },
    {
      "epoch": 0.3389830508474576,
      "grad_norm": 3.6753456592559814,
      "learning_rate": 3.75e-08,
      "log_odds_chosen": 0.6411725878715515,
      "log_odds_ratio": -0.4649675488471985,
      "logits/chosen": -0.5985379219055176,
      "logits/rejected": -0.15392252802848816,
      "logps/chosen": -1.0119307041168213,
      "logps/rejected": -1.4758830070495605,
      "loss": 1.1771,
      "nll_loss": 1.1306263208389282,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -0.10119307041168213,
      "rewards/margins": 0.046395231038331985,
      "rewards/rejected": -0.14758829772472382,
      "step": 10
    },
    {
      "epoch": 0.3389830508474576,
      "eval_log_odds_chosen": 0.3463364243507385,
      "eval_log_odds_ratio": -0.6194710731506348,
      "eval_logits/chosen": -0.826720654964447,
      "eval_logits/rejected": -0.7461210489273071,
      "eval_logps/chosen": -1.1986223459243774,
      "eval_logps/rejected": -1.437687635421753,
      "eval_loss": 1.3279355764389038,
      "eval_nll_loss": 1.3084385395050049,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11986224353313446,
      "eval_rewards/margins": 0.023906530812382698,
      "eval_rewards/rejected": -0.143768772482872,
      "eval_runtime": 2.3646,
      "eval_samples_per_second": 6.343,
      "eval_steps_per_second": 1.692,
      "step": 10
    },
    {
      "epoch": 0.5084745762711864,
      "grad_norm": 2.6734206676483154,
      "learning_rate": 4.9074074074074074e-08,
      "log_odds_chosen": 0.5467322468757629,
      "log_odds_ratio": -0.5080639123916626,
      "logits/chosen": -0.6727955937385559,
      "logits/rejected": -0.2421862781047821,
      "logps/chosen": -1.0358315706253052,
      "logps/rejected": -1.4172828197479248,
      "loss": 1.1984,
      "nll_loss": 1.147613763809204,
      "rewards/accuracies": 0.8374999761581421,
      "rewards/chosen": -0.10358314216136932,
      "rewards/margins": 0.03814515098929405,
      "rewards/rejected": -0.14172828197479248,
      "step": 15
    },
    {
      "epoch": 0.5084745762711864,
      "eval_log_odds_chosen": 0.3439960777759552,
      "eval_log_odds_ratio": -0.6200249791145325,
      "eval_logits/chosen": -0.8270355463027954,
      "eval_logits/rejected": -0.7460318803787231,
      "eval_logps/chosen": -1.1992497444152832,
      "eval_logps/rejected": -1.4363036155700684,
      "eval_loss": 1.3248008489608765,
      "eval_nll_loss": 1.3052968978881836,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11992497742176056,
      "eval_rewards/margins": 0.023705393075942993,
      "eval_rewards/rejected": -0.14363038539886475,
      "eval_runtime": 2.3001,
      "eval_samples_per_second": 6.522,
      "eval_steps_per_second": 1.739,
      "step": 15
    },
    {
      "epoch": 0.6779661016949152,
      "grad_norm": 2.985229253768921,
      "learning_rate": 4.675925925925926e-08,
      "log_odds_chosen": 0.5538958311080933,
      "log_odds_ratio": -0.4844888150691986,
      "logits/chosen": -0.6328302621841431,
      "logits/rejected": -0.2196337729692459,
      "logps/chosen": -0.9897964596748352,
      "logps/rejected": -1.3761847019195557,
      "loss": 1.1464,
      "nll_loss": 1.0979585647583008,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.098979651927948,
      "rewards/margins": 0.038638822734355927,
      "rewards/rejected": -0.13761845231056213,
      "step": 20
    },
    {
      "epoch": 0.6779661016949152,
      "eval_log_odds_chosen": 0.3439162075519562,
      "eval_log_odds_ratio": -0.6207376718521118,
      "eval_logits/chosen": -0.8287538290023804,
      "eval_logits/rejected": -0.7500149011611938,
      "eval_logps/chosen": -1.1994065046310425,
      "eval_logps/rejected": -1.4364498853683472,
      "eval_loss": 1.3215163946151733,
      "eval_nll_loss": 1.3019251823425293,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11994065344333649,
      "eval_rewards/margins": 0.02370433509349823,
      "eval_rewards/rejected": -0.14364498853683472,
      "eval_runtime": 2.4028,
      "eval_samples_per_second": 6.243,
      "eval_steps_per_second": 1.665,
      "step": 20
    },
    {
      "epoch": 0.847457627118644,
      "grad_norm": 2.2889516353607178,
      "learning_rate": 4.444444444444444e-08,
      "log_odds_chosen": 0.5198447108268738,
      "log_odds_ratio": -0.5137643218040466,
      "logits/chosen": -0.5211045145988464,
      "logits/rejected": -0.12277780473232269,
      "logps/chosen": -0.9896445274353027,
      "logps/rejected": -1.3587530851364136,
      "loss": 1.1928,
      "nll_loss": 1.141424536705017,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -0.09896446019411087,
      "rewards/margins": 0.036910854279994965,
      "rewards/rejected": -0.13587531447410583,
      "step": 25
    },
    {
      "epoch": 0.847457627118644,
      "eval_log_odds_chosen": 0.3448036313056946,
      "eval_log_odds_ratio": -0.6197227239608765,
      "eval_logits/chosen": -0.8284635543823242,
      "eval_logits/rejected": -0.7477390170097351,
      "eval_logps/chosen": -1.1986567974090576,
      "eval_logps/rejected": -1.4361884593963623,
      "eval_loss": 1.3181345462799072,
      "eval_nll_loss": 1.2985508441925049,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11986568570137024,
      "eval_rewards/margins": 0.023753169924020767,
      "eval_rewards/rejected": -0.1436188519001007,
      "eval_runtime": 2.4698,
      "eval_samples_per_second": 6.073,
      "eval_steps_per_second": 1.62,
      "step": 25
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.0400283336639404,
      "learning_rate": 4.2129629629629625e-08,
      "log_odds_chosen": 0.6260524988174438,
      "log_odds_ratio": -0.4879433214664459,
      "logits/chosen": -0.6383404731750488,
      "logits/rejected": -0.11991772055625916,
      "logps/chosen": -1.0283366441726685,
      "logps/rejected": -1.4722530841827393,
      "loss": 1.1457,
      "nll_loss": 1.1040095090866089,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.10283366590738297,
      "rewards/margins": 0.04439166933298111,
      "rewards/rejected": -0.14722532033920288,
      "step": 30
    },
    {
      "epoch": 1.0,
      "eval_log_odds_chosen": 0.3446802496910095,
      "eval_log_odds_ratio": -0.6202990412712097,
      "eval_logits/chosen": -0.8293232321739197,
      "eval_logits/rejected": -0.749043881893158,
      "eval_logps/chosen": -1.1981878280639648,
      "eval_logps/rejected": -1.4355335235595703,
      "eval_loss": 1.3151671886444092,
      "eval_nll_loss": 1.295397162437439,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.119818776845932,
      "eval_rewards/margins": 0.02373456582427025,
      "eval_rewards/rejected": -0.14355334639549255,
      "eval_runtime": 2.3634,
      "eval_samples_per_second": 6.347,
      "eval_steps_per_second": 1.692,
      "step": 30
    },
    {
      "epoch": 1.1694915254237288,
      "grad_norm": 2.696627140045166,
      "learning_rate": 3.9814814814814815e-08,
      "log_odds_chosen": 0.49621137976646423,
      "log_odds_ratio": -0.5309565663337708,
      "logits/chosen": -0.6420741081237793,
      "logits/rejected": -0.18228447437286377,
      "logps/chosen": -1.008725881576538,
      "logps/rejected": -1.3604915142059326,
      "loss": 1.1125,
      "nll_loss": 1.0594511032104492,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -0.10087261348962784,
      "rewards/margins": 0.03517654910683632,
      "rewards/rejected": -0.13604915142059326,
      "step": 35
    },
    {
      "epoch": 1.1694915254237288,
      "eval_log_odds_chosen": 0.3452969193458557,
      "eval_log_odds_ratio": -0.6196750402450562,
      "eval_logits/chosen": -0.8258322477340698,
      "eval_logits/rejected": -0.7455801367759705,
      "eval_logps/chosen": -1.1991809606552124,
      "eval_logps/rejected": -1.4370383024215698,
      "eval_loss": 1.3133561611175537,
      "eval_nll_loss": 1.2936301231384277,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.119918093085289,
      "eval_rewards/margins": 0.023785727098584175,
      "eval_rewards/rejected": -0.14370381832122803,
      "eval_runtime": 2.2925,
      "eval_samples_per_second": 6.543,
      "eval_steps_per_second": 1.745,
      "step": 35
    },
    {
      "epoch": 1.3389830508474576,
      "grad_norm": 3.0447092056274414,
      "learning_rate": 3.75e-08,
      "log_odds_chosen": 0.6023409962654114,
      "log_odds_ratio": -0.48153096437454224,
      "logits/chosen": -0.6359589099884033,
      "logits/rejected": -0.12003572285175323,
      "logps/chosen": -1.014690637588501,
      "logps/rejected": -1.4444173574447632,
      "loss": 1.1185,
      "nll_loss": 1.0703380107879639,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.10146906226873398,
      "rewards/margins": 0.04297268018126488,
      "rewards/rejected": -0.14444175362586975,
      "step": 40
    },
    {
      "epoch": 1.3389830508474576,
      "eval_log_odds_chosen": 0.3457057476043701,
      "eval_log_odds_ratio": -0.6200236082077026,
      "eval_logits/chosen": -0.8274150490760803,
      "eval_logits/rejected": -0.7458513379096985,
      "eval_logps/chosen": -1.1985080242156982,
      "eval_logps/rejected": -1.436950922012329,
      "eval_loss": 1.310854196548462,
      "eval_nll_loss": 1.2910186052322388,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11985080689191818,
      "eval_rewards/margins": 0.023844290524721146,
      "eval_rewards/rejected": -0.14369508624076843,
      "eval_runtime": 2.0709,
      "eval_samples_per_second": 7.243,
      "eval_steps_per_second": 1.932,
      "step": 40
    },
    {
      "epoch": 1.5084745762711864,
      "grad_norm": 2.4286935329437256,
      "learning_rate": 3.518518518518518e-08,
      "log_odds_chosen": 0.43364983797073364,
      "log_odds_ratio": -0.5388425588607788,
      "logits/chosen": -0.6143006086349487,
      "logits/rejected": -0.17402119934558868,
      "logps/chosen": -1.0169684886932373,
      "logps/rejected": -1.3061316013336182,
      "loss": 1.2022,
      "nll_loss": 1.1483418941497803,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.10169683396816254,
      "rewards/margins": 0.028916319832205772,
      "rewards/rejected": -0.13061316311359406,
      "step": 45
    },
    {
      "epoch": 1.5084745762711864,
      "eval_log_odds_chosen": 0.34640029072761536,
      "eval_log_odds_ratio": -0.6196874380111694,
      "eval_logits/chosen": -0.8271859884262085,
      "eval_logits/rejected": -0.7468405365943909,
      "eval_logps/chosen": -1.1981958150863647,
      "eval_logps/rejected": -1.4372470378875732,
      "eval_loss": 1.3086471557617188,
      "eval_nll_loss": 1.2887359857559204,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11981958150863647,
      "eval_rewards/margins": 0.02390512079000473,
      "eval_rewards/rejected": -0.1437247097492218,
      "eval_runtime": 2.4941,
      "eval_samples_per_second": 6.014,
      "eval_steps_per_second": 1.604,
      "step": 45
    },
    {
      "epoch": 1.6779661016949152,
      "grad_norm": 2.9268641471862793,
      "learning_rate": 3.287037037037037e-08,
      "log_odds_chosen": 0.5900410413742065,
      "log_odds_ratio": -0.49763163924217224,
      "logits/chosen": -0.5182631611824036,
      "logits/rejected": -0.06584630906581879,
      "logps/chosen": -1.1032148599624634,
      "logps/rejected": -1.5314563512802124,
      "loss": 1.2859,
      "nll_loss": 1.2361345291137695,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.11032148450613022,
      "rewards/margins": 0.042824164032936096,
      "rewards/rejected": -0.1531456559896469,
      "step": 50
    },
    {
      "epoch": 1.6779661016949152,
      "eval_log_odds_chosen": 0.34582221508026123,
      "eval_log_odds_ratio": -0.6204431056976318,
      "eval_logits/chosen": -0.8273264169692993,
      "eval_logits/rejected": -0.7475500702857971,
      "eval_logps/chosen": -1.2007322311401367,
      "eval_logps/rejected": -1.439100980758667,
      "eval_loss": 1.3071892261505127,
      "eval_nll_loss": 1.2873029708862305,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.12007322907447815,
      "eval_rewards/margins": 0.02383686974644661,
      "eval_rewards/rejected": -0.14391009509563446,
      "eval_runtime": 2.3687,
      "eval_samples_per_second": 6.333,
      "eval_steps_per_second": 1.689,
      "step": 50
    },
    {
      "epoch": 1.847457627118644,
      "grad_norm": 2.923938274383545,
      "learning_rate": 3.0555555555555556e-08,
      "log_odds_chosen": 0.7271274328231812,
      "log_odds_ratio": -0.4399596154689789,
      "logits/chosen": -0.6317266225814819,
      "logits/rejected": -0.19635015726089478,
      "logps/chosen": -0.9985980987548828,
      "logps/rejected": -1.5293996334075928,
      "loss": 1.1276,
      "nll_loss": 1.083601474761963,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -0.0998598113656044,
      "rewards/margins": 0.05308016389608383,
      "rewards/rejected": -0.15293996036052704,
      "step": 55
    },
    {
      "epoch": 1.847457627118644,
      "eval_log_odds_chosen": 0.34833377599716187,
      "eval_log_odds_ratio": -0.6186259984970093,
      "eval_logits/chosen": -0.8269048929214478,
      "eval_logits/rejected": -0.7455801963806152,
      "eval_logps/chosen": -1.196911096572876,
      "eval_logps/rejected": -1.437239646911621,
      "eval_loss": 1.304530382156372,
      "eval_nll_loss": 1.2846966981887817,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11969111114740372,
      "eval_rewards/margins": 0.02403285726904869,
      "eval_rewards/rejected": -0.1437239646911621,
      "eval_runtime": 2.3288,
      "eval_samples_per_second": 6.441,
      "eval_steps_per_second": 1.718,
      "step": 55
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.946364641189575,
      "learning_rate": 2.8240740740740736e-08,
      "log_odds_chosen": 0.6078373193740845,
      "log_odds_ratio": -0.485850065946579,
      "logits/chosen": -0.6273930668830872,
      "logits/rejected": -0.21480894088745117,
      "logps/chosen": -1.0067973136901855,
      "logps/rejected": -1.4497339725494385,
      "loss": 1.1433,
      "nll_loss": 1.1121139526367188,
      "rewards/accuracies": 0.8888888955116272,
      "rewards/chosen": -0.10067972540855408,
      "rewards/margins": 0.044293683022260666,
      "rewards/rejected": -0.14497341215610504,
      "step": 60
    },
    {
      "epoch": 2.0,
      "eval_log_odds_chosen": 0.34563085436820984,
      "eval_log_odds_ratio": -0.6200534105300903,
      "eval_logits/chosen": -0.8266342878341675,
      "eval_logits/rejected": -0.7474446296691895,
      "eval_logps/chosen": -1.198333740234375,
      "eval_logps/rejected": -1.4364194869995117,
      "eval_loss": 1.30304753780365,
      "eval_nll_loss": 1.2828768491744995,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11983337998390198,
      "eval_rewards/margins": 0.02380857989192009,
      "eval_rewards/rejected": -0.14364196360111237,
      "eval_runtime": 2.3652,
      "eval_samples_per_second": 6.342,
      "eval_steps_per_second": 1.691,
      "step": 60
    },
    {
      "epoch": 2.169491525423729,
      "grad_norm": 2.583970308303833,
      "learning_rate": 2.5925925925925923e-08,
      "log_odds_chosen": 0.6106057167053223,
      "log_odds_ratio": -0.4779096245765686,
      "logits/chosen": -0.686557412147522,
      "logits/rejected": -0.2725212275981903,
      "logps/chosen": -0.9596541523933411,
      "logps/rejected": -1.4074879884719849,
      "loss": 1.0813,
      "nll_loss": 1.0335239171981812,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -0.0959654226899147,
      "rewards/margins": 0.044783372431993484,
      "rewards/rejected": -0.1407487839460373,
      "step": 65
    },
    {
      "epoch": 2.169491525423729,
      "eval_log_odds_chosen": 0.3470456004142761,
      "eval_log_odds_ratio": -0.6191624402999878,
      "eval_logits/chosen": -0.8260448575019836,
      "eval_logits/rejected": -0.7457568645477295,
      "eval_logps/chosen": -1.1975462436676025,
      "eval_logps/rejected": -1.4365394115447998,
      "eval_loss": 1.3012058734893799,
      "eval_nll_loss": 1.2811425924301147,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.1197546198964119,
      "eval_rewards/margins": 0.023899313062429428,
      "eval_rewards/rejected": -0.14365392923355103,
      "eval_runtime": 2.0569,
      "eval_samples_per_second": 7.292,
      "eval_steps_per_second": 1.945,
      "step": 65
    },
    {
      "epoch": 2.3389830508474576,
      "grad_norm": 2.8739640712738037,
      "learning_rate": 2.361111111111111e-08,
      "log_odds_chosen": 0.6883528828620911,
      "log_odds_ratio": -0.4613940119743347,
      "logits/chosen": -0.6194564700126648,
      "logits/rejected": -0.16226115822792053,
      "logps/chosen": -1.0230361223220825,
      "logps/rejected": -1.5271246433258057,
      "loss": 1.0952,
      "nll_loss": 1.0490230321884155,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -0.10230360180139542,
      "rewards/margins": 0.05040886998176575,
      "rewards/rejected": -0.15271246433258057,
      "step": 70
    },
    {
      "epoch": 2.3389830508474576,
      "eval_log_odds_chosen": 0.34613096714019775,
      "eval_log_odds_ratio": -0.6190251111984253,
      "eval_logits/chosen": -0.8254708051681519,
      "eval_logits/rejected": -0.7465603351593018,
      "eval_logps/chosen": -1.1970798969268799,
      "eval_logps/rejected": -1.4355697631835938,
      "eval_loss": 1.2998255491256714,
      "eval_nll_loss": 1.279675006866455,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11970800161361694,
      "eval_rewards/margins": 0.023848986253142357,
      "eval_rewards/rejected": -0.14355698227882385,
      "eval_runtime": 2.1718,
      "eval_samples_per_second": 6.907,
      "eval_steps_per_second": 1.842,
      "step": 70
    },
    {
      "epoch": 2.5084745762711864,
      "grad_norm": 2.5808846950531006,
      "learning_rate": 2.1296296296296297e-08,
      "log_odds_chosen": 0.517440915107727,
      "log_odds_ratio": -0.5259458422660828,
      "logits/chosen": -0.5467637181282043,
      "logits/rejected": -0.10346652567386627,
      "logps/chosen": -1.0675327777862549,
      "logps/rejected": -1.437524437904358,
      "loss": 1.2494,
      "nll_loss": 1.1968111991882324,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -0.10675326734781265,
      "rewards/margins": 0.036999184638261795,
      "rewards/rejected": -0.14375244081020355,
      "step": 75
    },
    {
      "epoch": 2.5084745762711864,
      "eval_log_odds_chosen": 0.34606456756591797,
      "eval_log_odds_ratio": -0.620042622089386,
      "eval_logits/chosen": -0.8240770697593689,
      "eval_logits/rejected": -0.7445046305656433,
      "eval_logps/chosen": -1.1980996131896973,
      "eval_logps/rejected": -1.436529517173767,
      "eval_loss": 1.2983678579330444,
      "eval_nll_loss": 1.27822744846344,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11980997025966644,
      "eval_rewards/margins": 0.023842979222536087,
      "eval_rewards/rejected": -0.14365294575691223,
      "eval_runtime": 2.3948,
      "eval_samples_per_second": 6.264,
      "eval_steps_per_second": 1.67,
      "step": 75
    },
    {
      "epoch": 2.6779661016949152,
      "grad_norm": 3.2112486362457275,
      "learning_rate": 1.898148148148148e-08,
      "log_odds_chosen": 0.6882795095443726,
      "log_odds_ratio": -0.4549444615840912,
      "logits/chosen": -0.6079570651054382,
      "logits/rejected": -0.1440545618534088,
      "logps/chosen": -1.0264164209365845,
      "logps/rejected": -1.5247279405593872,
      "loss": 1.1376,
      "nll_loss": 1.0920751094818115,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.10264164209365845,
      "rewards/margins": 0.04983116313815117,
      "rewards/rejected": -0.15247280895709991,
      "step": 80
    },
    {
      "epoch": 2.6779661016949152,
      "eval_log_odds_chosen": 0.34864068031311035,
      "eval_log_odds_ratio": -0.6184805631637573,
      "eval_logits/chosen": -0.8214948773384094,
      "eval_logits/rejected": -0.7387450933456421,
      "eval_logps/chosen": -1.1962885856628418,
      "eval_logps/rejected": -1.4366211891174316,
      "eval_loss": 1.2968833446502686,
      "eval_nll_loss": 1.2767653465270996,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11962885409593582,
      "eval_rewards/margins": 0.02403326891362667,
      "eval_rewards/rejected": -0.14366212487220764,
      "eval_runtime": 2.3377,
      "eval_samples_per_second": 6.417,
      "eval_steps_per_second": 1.711,
      "step": 80
    },
    {
      "epoch": 2.847457627118644,
      "grad_norm": 1.839969277381897,
      "learning_rate": 1.6666666666666664e-08,
      "log_odds_chosen": 0.4969852864742279,
      "log_odds_ratio": -0.532636284828186,
      "logits/chosen": -0.5632266998291016,
      "logits/rejected": -0.06907184422016144,
      "logps/chosen": -1.0492427349090576,
      "logps/rejected": -1.3902790546417236,
      "loss": 1.2407,
      "nll_loss": 1.1874761581420898,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.1049242839217186,
      "rewards/margins": 0.03410361707210541,
      "rewards/rejected": -0.1390278935432434,
      "step": 85
    },
    {
      "epoch": 2.847457627118644,
      "eval_log_odds_chosen": 0.34886401891708374,
      "eval_log_odds_ratio": -0.6193042993545532,
      "eval_logits/chosen": -0.8233250379562378,
      "eval_logits/rejected": -0.7452165484428406,
      "eval_logps/chosen": -1.1970219612121582,
      "eval_logps/rejected": -1.4376810789108276,
      "eval_loss": 1.2961064577102661,
      "eval_nll_loss": 1.2759020328521729,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11970219016075134,
      "eval_rewards/margins": 0.02406592108309269,
      "eval_rewards/rejected": -0.14376811683177948,
      "eval_runtime": 2.3326,
      "eval_samples_per_second": 6.431,
      "eval_steps_per_second": 1.715,
      "step": 85
    },
    {
      "epoch": 3.0,
      "grad_norm": 2.8928427696228027,
      "learning_rate": 1.435185185185185e-08,
      "log_odds_chosen": 0.45060819387435913,
      "log_odds_ratio": -0.5237997174263,
      "logits/chosen": -0.5375601649284363,
      "logits/rejected": -0.10669712722301483,
      "logps/chosen": -1.026106595993042,
      "logps/rejected": -1.3331278562545776,
      "loss": 1.1632,
      "nll_loss": 1.1324602365493774,
      "rewards/accuracies": 0.8611111044883728,
      "rewards/chosen": -0.10261066257953644,
      "rewards/margins": 0.030702121555805206,
      "rewards/rejected": -0.13331276178359985,
      "step": 90
    },
    {
      "epoch": 3.0,
      "eval_log_odds_chosen": 0.3472563922405243,
      "eval_log_odds_ratio": -0.6190530061721802,
      "eval_logits/chosen": -0.8260915279388428,
      "eval_logits/rejected": -0.7494507431983948,
      "eval_logps/chosen": -1.1969666481018066,
      "eval_logps/rejected": -1.4364831447601318,
      "eval_loss": 1.295333743095398,
      "eval_nll_loss": 1.2750121355056763,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11969666182994843,
      "eval_rewards/margins": 0.023951642215251923,
      "eval_rewards/rejected": -0.14364831149578094,
      "eval_runtime": 2.4234,
      "eval_samples_per_second": 6.19,
      "eval_steps_per_second": 1.651,
      "step": 90
    },
    {
      "epoch": 3.169491525423729,
      "grad_norm": 2.178267478942871,
      "learning_rate": 1.2037037037037036e-08,
      "log_odds_chosen": 0.6245774030685425,
      "log_odds_ratio": -0.47914019227027893,
      "logits/chosen": -0.5936748385429382,
      "logits/rejected": -0.12400760501623154,
      "logps/chosen": -1.0799325704574585,
      "logps/rejected": -1.5386043787002563,
      "loss": 1.2075,
      "nll_loss": 1.1595532894134521,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.10799328237771988,
      "rewards/margins": 0.045867159962654114,
      "rewards/rejected": -0.1538604199886322,
      "step": 95
    },
    {
      "epoch": 3.169491525423729,
      "eval_log_odds_chosen": 0.3449009954929352,
      "eval_log_odds_ratio": -0.6200248003005981,
      "eval_logits/chosen": -0.8238758444786072,
      "eval_logits/rejected": -0.7465205788612366,
      "eval_logps/chosen": -1.1979708671569824,
      "eval_logps/rejected": -1.4351496696472168,
      "eval_loss": 1.2949864864349365,
      "eval_nll_loss": 1.2746418714523315,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11979708075523376,
      "eval_rewards/margins": 0.02371787652373314,
      "eval_rewards/rejected": -0.1435149610042572,
      "eval_runtime": 2.3856,
      "eval_samples_per_second": 6.288,
      "eval_steps_per_second": 1.677,
      "step": 95
    },
    {
      "epoch": 3.3389830508474576,
      "grad_norm": 3.0120768547058105,
      "learning_rate": 9.722222222222223e-09,
      "log_odds_chosen": 0.6266916990280151,
      "log_odds_ratio": -0.46665820479393005,
      "logits/chosen": -0.6890040636062622,
      "logits/rejected": -0.2087690830230713,
      "logps/chosen": -0.9734174013137817,
      "logps/rejected": -1.4124778509140015,
      "loss": 1.1383,
      "nll_loss": 1.0916029214859009,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -0.09734174609184265,
      "rewards/margins": 0.04390605166554451,
      "rewards/rejected": -0.14124779403209686,
      "step": 100
    },
    {
      "epoch": 3.3389830508474576,
      "eval_log_odds_chosen": 0.3461822271347046,
      "eval_log_odds_ratio": -0.6199952960014343,
      "eval_logits/chosen": -0.8260993957519531,
      "eval_logits/rejected": -0.7494193911552429,
      "eval_logps/chosen": -1.1973499059677124,
      "eval_logps/rejected": -1.435782790184021,
      "eval_loss": 1.2943472862243652,
      "eval_nll_loss": 1.2740821838378906,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.1197349950671196,
      "eval_rewards/margins": 0.02384328469634056,
      "eval_rewards/rejected": -0.14357827603816986,
      "eval_runtime": 2.297,
      "eval_samples_per_second": 6.53,
      "eval_steps_per_second": 1.741,
      "step": 100
    },
    {
      "epoch": 3.5084745762711864,
      "grad_norm": 2.94162654876709,
      "learning_rate": 7.407407407407406e-09,
      "log_odds_chosen": 0.6522419452667236,
      "log_odds_ratio": -0.4762607216835022,
      "logits/chosen": -0.6378888487815857,
      "logits/rejected": -0.20835626125335693,
      "logps/chosen": -1.0351794958114624,
      "logps/rejected": -1.5168087482452393,
      "loss": 1.132,
      "nll_loss": 1.0843795537948608,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -0.10351793467998505,
      "rewards/margins": 0.04816293716430664,
      "rewards/rejected": -0.15168088674545288,
      "step": 105
    },
    {
      "epoch": 3.5084745762711864,
      "eval_log_odds_chosen": 0.34624600410461426,
      "eval_log_odds_ratio": -0.6196528673171997,
      "eval_logits/chosen": -0.8230563402175903,
      "eval_logits/rejected": -0.7455496191978455,
      "eval_logps/chosen": -1.1972136497497559,
      "eval_logps/rejected": -1.4357357025146484,
      "eval_loss": 1.2938958406448364,
      "eval_nll_loss": 1.273663878440857,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11972138285636902,
      "eval_rewards/margins": 0.023852191865444183,
      "eval_rewards/rejected": -0.1435735523700714,
      "eval_runtime": 2.0374,
      "eval_samples_per_second": 7.362,
      "eval_steps_per_second": 1.963,
      "step": 105
    },
    {
      "epoch": 3.6779661016949152,
      "grad_norm": 2.145254373550415,
      "learning_rate": 5.092592592592592e-09,
      "log_odds_chosen": 0.4669066369533539,
      "log_odds_ratio": -0.5435744524002075,
      "logits/chosen": -0.5924472212791443,
      "logits/rejected": -0.16264298558235168,
      "logps/chosen": -1.0428065061569214,
      "logps/rejected": -1.3670099973678589,
      "loss": 1.2299,
      "nll_loss": 1.1755752563476562,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.10428065061569214,
      "rewards/margins": 0.03242034837603569,
      "rewards/rejected": -0.13670100271701813,
      "step": 110
    },
    {
      "epoch": 3.6779661016949152,
      "eval_log_odds_chosen": 0.34594425559043884,
      "eval_log_odds_ratio": -0.6201038360595703,
      "eval_logits/chosen": -0.8250141739845276,
      "eval_logits/rejected": -0.74653559923172,
      "eval_logps/chosen": -1.197659969329834,
      "eval_logps/rejected": -1.436202883720398,
      "eval_loss": 1.2942434549331665,
      "eval_nll_loss": 1.2739633321762085,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.1197659969329834,
      "eval_rewards/margins": 0.023854291066527367,
      "eval_rewards/rejected": -0.14362028241157532,
      "eval_runtime": 2.4284,
      "eval_samples_per_second": 6.177,
      "eval_steps_per_second": 1.647,
      "step": 110
    },
    {
      "epoch": 3.847457627118644,
      "grad_norm": 2.368039846420288,
      "learning_rate": 2.7777777777777776e-09,
      "log_odds_chosen": 0.5323175191879272,
      "log_odds_ratio": -0.5115704536437988,
      "logits/chosen": -0.5521407127380371,
      "logits/rejected": -0.0902065858244896,
      "logps/chosen": -1.022303819656372,
      "logps/rejected": -1.3985751867294312,
      "loss": 1.2074,
      "nll_loss": 1.1562185287475586,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -0.10223038494586945,
      "rewards/margins": 0.037627145648002625,
      "rewards/rejected": -0.13985753059387207,
      "step": 115
    },
    {
      "epoch": 3.847457627118644,
      "eval_log_odds_chosen": 0.3472224473953247,
      "eval_log_odds_ratio": -0.6191097497940063,
      "eval_logits/chosen": -0.8245607614517212,
      "eval_logits/rejected": -0.7454671859741211,
      "eval_logps/chosen": -1.1963317394256592,
      "eval_logps/rejected": -1.4353883266448975,
      "eval_loss": 1.2926907539367676,
      "eval_nll_loss": 1.2724549770355225,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11963316053152084,
      "eval_rewards/margins": 0.023905668407678604,
      "eval_rewards/rejected": -0.14353883266448975,
      "eval_runtime": 2.3939,
      "eval_samples_per_second": 6.266,
      "eval_steps_per_second": 1.671,
      "step": 115
    },
    {
      "epoch": 4.0,
      "grad_norm": 3.87864089012146,
      "learning_rate": 4.629629629629629e-10,
      "log_odds_chosen": 0.5788644552230835,
      "log_odds_ratio": -0.4914652109146118,
      "logits/chosen": -0.636318564414978,
      "logits/rejected": -0.16115230321884155,
      "logps/chosen": -1.008524775505066,
      "logps/rejected": -1.4221386909484863,
      "loss": 1.1531,
      "nll_loss": 1.090425968170166,
      "rewards/accuracies": 0.8472222089767456,
      "rewards/chosen": -0.10085248947143555,
      "rewards/margins": 0.04136139899492264,
      "rewards/rejected": -0.1422138810157776,
      "step": 120
    },
    {
      "epoch": 4.0,
      "eval_log_odds_chosen": 0.3468348979949951,
      "eval_log_odds_ratio": -0.619236946105957,
      "eval_logits/chosen": -0.8219494223594666,
      "eval_logits/rejected": -0.7437239289283752,
      "eval_logps/chosen": -1.1963438987731934,
      "eval_logps/rejected": -1.435250997543335,
      "eval_loss": 1.2931767702102661,
      "eval_nll_loss": 1.2729113101959229,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.11963438987731934,
      "eval_rewards/margins": 0.02389070764183998,
      "eval_rewards/rejected": -0.14352509379386902,
      "eval_runtime": 2.2505,
      "eval_samples_per_second": 6.665,
      "eval_steps_per_second": 1.777,
      "step": 120
    }
  ],
  "logging_steps": 5,
  "max_steps": 120,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}