{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8397480755773268,
  "eval_steps": 500,
  "global_step": 300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 187.95238494873047,
      "epoch": 0.0027991602519244225,
      "grad_norm": 1.0234375,
      "kl": 0.0,
      "learning_rate": 1.3888888888888888e-07,
      "loss": 0.0,
      "reward": 0.46513424068689346,
      "reward_std": 0.20957323536276817,
      "rewards/check_gptzero_func": 0.46513424068689346,
      "step": 1
    },
    {
      "completion_length": 204.64286041259766,
      "epoch": 0.005598320503848845,
      "grad_norm": 0.859375,
      "kl": 0.0,
      "learning_rate": 2.7777777777777776e-07,
      "loss": 0.0,
      "reward": 0.3453420288860798,
      "reward_std": 0.19838641211390495,
      "rewards/check_gptzero_func": 0.3453420288860798,
      "step": 2
    },
    {
      "completion_length": 172.09524154663086,
      "epoch": 0.008397480755773267,
      "grad_norm": 1.0234375,
      "kl": 8.45193862915039e-05,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.0,
      "reward": 0.4417309910058975,
      "reward_std": 0.15838673152029514,
      "rewards/check_gptzero_func": 0.4417309910058975,
      "step": 3
    },
    {
      "completion_length": 182.4761962890625,
      "epoch": 0.01119664100769769,
      "grad_norm": 1.015625,
      "kl": 0.00014972686767578125,
      "learning_rate": 5.555555555555555e-07,
      "loss": 0.0,
      "reward": 0.381104938685894,
      "reward_std": 0.18715333193540573,
      "rewards/check_gptzero_func": 0.381104938685894,
      "step": 4
    },
    {
      "completion_length": 174.01190948486328,
      "epoch": 0.013995801259622114,
      "grad_norm": 1.078125,
      "kl": 0.000102996826171875,
      "learning_rate": 6.944444444444446e-07,
      "loss": 0.0,
      "reward": 0.47953247278928757,
      "reward_std": 0.1845148727297783,
      "rewards/check_gptzero_func": 0.47953247278928757,
      "step": 5
    },
    {
      "completion_length": 201.01190948486328,
      "epoch": 0.016794961511546535,
      "grad_norm": 0.91015625,
      "kl": 0.00011652708053588867,
      "learning_rate": 8.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.42353298515081406,
      "reward_std": 0.1985670831054449,
      "rewards/check_gptzero_func": 0.42353298515081406,
      "step": 6
    },
    {
      "completion_length": 175.90476989746094,
      "epoch": 0.01959412176347096,
      "grad_norm": 1.015625,
      "kl": 0.00013816356658935547,
      "learning_rate": 9.722222222222224e-07,
      "loss": 0.0,
      "reward": 0.5062773898243904,
      "reward_std": 0.1975775510072708,
      "rewards/check_gptzero_func": 0.5062773898243904,
      "step": 7
    },
    {
      "completion_length": 177.42857360839844,
      "epoch": 0.02239328201539538,
      "grad_norm": 0.9765625,
      "kl": 0.00012969970703125,
      "learning_rate": 1.111111111111111e-06,
      "loss": 0.0,
      "reward": 0.3951154872775078,
      "reward_std": 0.1862633414566517,
      "rewards/check_gptzero_func": 0.3951154872775078,
      "step": 8
    },
    {
      "completion_length": 187.6785774230957,
      "epoch": 0.025192442267319804,
      "grad_norm": 1.1171875,
      "kl": 0.00012481212615966797,
      "learning_rate": 1.25e-06,
      "loss": 0.0,
      "reward": 0.5369215086102486,
      "reward_std": 0.27992387115955353,
      "rewards/check_gptzero_func": 0.5369215086102486,
      "step": 9
    },
    {
      "completion_length": 184.0595245361328,
      "epoch": 0.02799160251924423,
      "grad_norm": 0.890625,
      "kl": 0.00013375282287597656,
      "learning_rate": 1.3888888888888892e-06,
      "loss": 0.0,
      "reward": 0.4447266310453415,
      "reward_std": 0.25660283863544464,
      "rewards/check_gptzero_func": 0.4447266310453415,
      "step": 10
    },
    {
      "completion_length": 178.57143020629883,
      "epoch": 0.03079076277116865,
      "grad_norm": 1.109375,
      "kl": 0.00011909008026123047,
      "learning_rate": 1.527777777777778e-06,
      "loss": 0.0,
      "reward": 0.4782513678073883,
      "reward_std": 0.19694043323397636,
      "rewards/check_gptzero_func": 0.4782513678073883,
      "step": 11
    },
    {
      "completion_length": 166.57143020629883,
      "epoch": 0.03358992302309307,
      "grad_norm": 1.078125,
      "kl": 0.00013256072998046875,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.0,
      "reward": 0.2991659436374903,
      "reward_std": 0.2037220150232315,
      "rewards/check_gptzero_func": 0.2991659436374903,
      "step": 12
    },
    {
      "completion_length": 179.64286422729492,
      "epoch": 0.0363890832750175,
      "grad_norm": 0.921875,
      "kl": 0.00010061264038085938,
      "learning_rate": 1.8055555555555557e-06,
      "loss": 0.0,
      "reward": 0.35697006061673164,
      "reward_std": 0.16125616803765297,
      "rewards/check_gptzero_func": 0.35697006061673164,
      "step": 13
    },
    {
      "completion_length": 195.26191329956055,
      "epoch": 0.03918824352694192,
      "grad_norm": 1.0078125,
      "kl": 0.00013875961303710938,
      "learning_rate": 1.944444444444445e-06,
      "loss": 0.0,
      "reward": 0.5023506954312325,
      "reward_std": 0.2251712903380394,
      "rewards/check_gptzero_func": 0.5023506954312325,
      "step": 14
    },
    {
      "completion_length": 163.0952377319336,
      "epoch": 0.04198740377886634,
      "grad_norm": 1.15625,
      "kl": 0.00012624263763427734,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 0.0,
      "reward": 0.5686202421784401,
      "reward_std": 0.16065805964171886,
      "rewards/check_gptzero_func": 0.5686202421784401,
      "step": 15
    },
    {
      "completion_length": 180.0714340209961,
      "epoch": 0.04478656403079076,
      "grad_norm": 1.03125,
      "kl": 0.00016486644744873047,
      "learning_rate": 2.222222222222222e-06,
      "loss": 0.0,
      "reward": 0.4932379499077797,
      "reward_std": 0.2570475209504366,
      "rewards/check_gptzero_func": 0.4932379499077797,
      "step": 16
    },
    {
      "completion_length": 193.03571701049805,
      "epoch": 0.04758572428271519,
      "grad_norm": 1.0078125,
      "kl": 0.00022602081298828125,
      "learning_rate": 2.361111111111111e-06,
      "loss": 0.0,
      "reward": 0.34498296678066254,
      "reward_std": 0.23837541788816452,
      "rewards/check_gptzero_func": 0.34498296678066254,
      "step": 17
    },
    {
      "completion_length": 179.34524536132812,
      "epoch": 0.05038488453463961,
      "grad_norm": 0.94921875,
      "kl": 0.00022101402282714844,
      "learning_rate": 2.5e-06,
      "loss": 0.0,
      "reward": 0.5981053188443184,
      "reward_std": 0.16939585842192173,
      "rewards/check_gptzero_func": 0.5981053188443184,
      "step": 18
    },
    {
      "completion_length": 182.52381134033203,
      "epoch": 0.05318404478656403,
      "grad_norm": 0.91796875,
      "kl": 0.00026416778564453125,
      "learning_rate": 2.6388888888888893e-06,
      "loss": 0.0,
      "reward": 0.4666922390460968,
      "reward_std": 0.19714651349931955,
      "rewards/check_gptzero_func": 0.4666922390460968,
      "step": 19
    },
    {
      "completion_length": 172.7023811340332,
      "epoch": 0.05598320503848846,
      "grad_norm": 0.98828125,
      "kl": 0.0003151893615722656,
      "learning_rate": 2.7777777777777783e-06,
      "loss": 0.0,
      "reward": 0.5293586701154709,
      "reward_std": 0.1787981353700161,
      "rewards/check_gptzero_func": 0.5293586701154709,
      "step": 20
    },
    {
      "completion_length": 199.94047927856445,
      "epoch": 0.05878236529041288,
      "grad_norm": 1.0546875,
      "kl": 0.00033283233642578125,
      "learning_rate": 2.916666666666667e-06,
      "loss": 0.0,
      "reward": 0.4446847140789032,
      "reward_std": 0.18958063051104546,
      "rewards/check_gptzero_func": 0.4446847140789032,
      "step": 21
    },
    {
      "completion_length": 198.52381134033203,
      "epoch": 0.0615815255423373,
      "grad_norm": 0.8359375,
      "kl": 0.00037479400634765625,
      "learning_rate": 3.055555555555556e-06,
      "loss": 0.0,
      "reward": 0.5041225850582123,
      "reward_std": 0.1401257887482643,
      "rewards/check_gptzero_func": 0.5041225850582123,
      "step": 22
    },
    {
      "completion_length": 177.72619247436523,
      "epoch": 0.06438068579426172,
      "grad_norm": 0.99609375,
      "kl": 0.0007195472717285156,
      "learning_rate": 3.1944444444444443e-06,
      "loss": 0.0001,
      "reward": 0.472538560628891,
      "reward_std": 0.25678203627467155,
      "rewards/check_gptzero_func": 0.472538560628891,
      "step": 23
    },
    {
      "completion_length": 201.9761962890625,
      "epoch": 0.06717984604618614,
      "grad_norm": 0.8984375,
      "kl": 0.0009317398071289062,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.0001,
      "reward": 0.5138305872678757,
      "reward_std": 0.19977859780192375,
      "rewards/check_gptzero_func": 0.5138305872678757,
      "step": 24
    },
    {
      "completion_length": 211.83333587646484,
      "epoch": 0.06997900629811056,
      "grad_norm": 0.78125,
      "kl": 0.0008678436279296875,
      "learning_rate": 3.4722222222222224e-06,
      "loss": 0.0001,
      "reward": 0.4136114977300167,
      "reward_std": 0.1939336434006691,
      "rewards/check_gptzero_func": 0.4136114977300167,
      "step": 25
    },
    {
      "completion_length": 173.82143020629883,
      "epoch": 0.072778166550035,
      "grad_norm": 0.9375,
      "kl": 0.0014667510986328125,
      "learning_rate": 3.6111111111111115e-06,
      "loss": 0.0001,
      "reward": 0.5154794007539749,
      "reward_std": 0.22610028088092804,
      "rewards/check_gptzero_func": 0.5154794007539749,
      "step": 26
    },
    {
      "completion_length": 190.48809814453125,
      "epoch": 0.07557732680195942,
      "grad_norm": 0.87890625,
      "kl": 0.00168609619140625,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.0002,
      "reward": 0.5691990107297897,
      "reward_std": 0.1696779690682888,
      "rewards/check_gptzero_func": 0.5691990107297897,
      "step": 27
    },
    {
      "completion_length": 188.2738151550293,
      "epoch": 0.07837648705388384,
      "grad_norm": 0.9375,
      "kl": 0.00185394287109375,
      "learning_rate": 3.88888888888889e-06,
      "loss": 0.0002,
      "reward": 0.5436510145664215,
      "reward_std": 0.24924885854125023,
      "rewards/check_gptzero_func": 0.5436510145664215,
      "step": 28
    },
    {
      "completion_length": 205.52381134033203,
      "epoch": 0.08117564730580826,
      "grad_norm": 0.765625,
      "kl": 0.001617431640625,
      "learning_rate": 4.027777777777779e-06,
      "loss": 0.0002,
      "reward": 0.4470183253288269,
      "reward_std": 0.20528827793896198,
      "rewards/check_gptzero_func": 0.4470183253288269,
      "step": 29
    },
    {
      "completion_length": 171.84524154663086,
      "epoch": 0.08397480755773268,
      "grad_norm": 0.9609375,
      "kl": 0.003101348876953125,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.0003,
      "reward": 0.46852748841047287,
      "reward_std": 0.16202964074909687,
      "rewards/check_gptzero_func": 0.46852748841047287,
      "step": 30
    },
    {
      "completion_length": 180.92857360839844,
      "epoch": 0.0867739678096571,
      "grad_norm": 1.34375,
      "kl": 0.003253936767578125,
      "learning_rate": 4.305555555555556e-06,
      "loss": 0.0003,
      "reward": 0.43846940994262695,
      "reward_std": 0.16219847835600376,
      "rewards/check_gptzero_func": 0.43846940994262695,
      "step": 31
    },
    {
      "completion_length": 200.4285774230957,
      "epoch": 0.08957312806158152,
      "grad_norm": 0.8125,
      "kl": 0.00244140625,
      "learning_rate": 4.444444444444444e-06,
      "loss": 0.0003,
      "reward": 0.5283855870366096,
      "reward_std": 0.20884095132350922,
      "rewards/check_gptzero_func": 0.5283855870366096,
      "step": 32
    },
    {
      "completion_length": 178.6190528869629,
      "epoch": 0.09237228831350595,
      "grad_norm": 0.83984375,
      "kl": 0.00383758544921875,
      "learning_rate": 4.583333333333333e-06,
      "loss": 0.0004,
      "reward": 0.5132240653038025,
      "reward_std": 0.15939988382160664,
      "rewards/check_gptzero_func": 0.5132240653038025,
      "step": 33
    },
    {
      "completion_length": 195.8095245361328,
      "epoch": 0.09517144856543037,
      "grad_norm": 0.9609375,
      "kl": 0.0034942626953125,
      "learning_rate": 4.722222222222222e-06,
      "loss": 0.0003,
      "reward": 0.4721037596464157,
      "reward_std": 0.22807539626955986,
      "rewards/check_gptzero_func": 0.4721037596464157,
      "step": 34
    },
    {
      "completion_length": 187.72619247436523,
      "epoch": 0.0979706088173548,
      "grad_norm": 0.78515625,
      "kl": 0.004547119140625,
      "learning_rate": 4.861111111111111e-06,
      "loss": 0.0005,
      "reward": 0.4753117114305496,
      "reward_std": 0.21822157502174377,
      "rewards/check_gptzero_func": 0.4753117114305496,
      "step": 35
    },
    {
      "completion_length": 189.3452377319336,
      "epoch": 0.10076976906927922,
      "grad_norm": 1.015625,
      "kl": 0.005115509033203125,
      "learning_rate": 5e-06,
      "loss": 0.0005,
      "reward": 0.5079967528581619,
      "reward_std": 0.1728131715208292,
      "rewards/check_gptzero_func": 0.5079967528581619,
      "step": 36
    },
    {
      "completion_length": 182.50000381469727,
      "epoch": 0.10356892932120364,
      "grad_norm": 0.859375,
      "kl": 0.006103515625,
      "learning_rate": 4.999880271862381e-06,
      "loss": 0.0006,
      "reward": 0.5491276457905769,
      "reward_std": 0.29580989107489586,
      "rewards/check_gptzero_func": 0.5491276457905769,
      "step": 37
    },
    {
      "completion_length": 201.61904907226562,
      "epoch": 0.10636808957312806,
      "grad_norm": 0.7890625,
      "kl": 0.00431060791015625,
      "learning_rate": 4.999521098917384e-06,
      "loss": 0.0005,
      "reward": 0.7083312571048737,
      "reward_std": 0.17898299172520638,
      "rewards/check_gptzero_func": 0.7083312571048737,
      "step": 38
    },
    {
      "completion_length": 183.6904754638672,
      "epoch": 0.10916724982505248,
      "grad_norm": 0.828125,
      "kl": 0.00653076171875,
      "learning_rate": 4.998922515567496e-06,
      "loss": 0.0007,
      "reward": 0.5663967505097389,
      "reward_std": 0.21669673547148705,
      "rewards/check_gptzero_func": 0.5663967505097389,
      "step": 39
    },
    {
      "completion_length": 176.16667556762695,
      "epoch": 0.11196641007697691,
      "grad_norm": 0.83984375,
      "kl": 0.007232666015625,
      "learning_rate": 4.998084579146533e-06,
      "loss": 0.0007,
      "reward": 0.592326283454895,
      "reward_std": 0.1653369516134262,
      "rewards/check_gptzero_func": 0.592326283454895,
      "step": 40
    },
    {
      "completion_length": 191.34524154663086,
      "epoch": 0.11476557032890133,
      "grad_norm": 0.78515625,
      "kl": 0.006866455078125,
      "learning_rate": 4.997007369914149e-06,
      "loss": 0.0007,
      "reward": 0.5438110902905464,
      "reward_std": 0.150531854480505,
      "rewards/check_gptzero_func": 0.5438110902905464,
      "step": 41
    },
    {
      "completion_length": 173.26190567016602,
      "epoch": 0.11756473058082575,
      "grad_norm": 0.90234375,
      "kl": 0.00835418701171875,
      "learning_rate": 4.9956909910481465e-06,
      "loss": 0.0008,
      "reward": 0.496019683778286,
      "reward_std": 0.13957532681524754,
      "rewards/check_gptzero_func": 0.496019683778286,
      "step": 42
    },
    {
      "completion_length": 197.21428680419922,
      "epoch": 0.12036389083275018,
      "grad_norm": 0.7578125,
      "kl": 0.00658416748046875,
      "learning_rate": 4.994135568634598e-06,
      "loss": 0.0007,
      "reward": 0.5706812366843224,
      "reward_std": 0.22384651005268097,
      "rewards/check_gptzero_func": 0.5706812366843224,
      "step": 43
    },
    {
      "completion_length": 195.50000381469727,
      "epoch": 0.1231630510846746,
      "grad_norm": 0.8046875,
      "kl": 0.0059814453125,
      "learning_rate": 4.992341251655768e-06,
      "loss": 0.0006,
      "reward": 0.49248379468917847,
      "reward_std": 0.1679957453161478,
      "rewards/check_gptzero_func": 0.49248379468917847,
      "step": 44
    },
    {
      "completion_length": 174.83333206176758,
      "epoch": 0.12596221133659902,
      "grad_norm": 0.83984375,
      "kl": 0.00934600830078125,
      "learning_rate": 4.99030821197584e-06,
      "loss": 0.001,
      "reward": 0.5782680213451385,
      "reward_std": 0.18842186219990253,
      "rewards/check_gptzero_func": 0.5782680213451385,
      "step": 45
    },
    {
      "completion_length": 180.71428680419922,
      "epoch": 0.12876137158852344,
      "grad_norm": 0.83203125,
      "kl": 0.009490966796875,
      "learning_rate": 4.988036644324457e-06,
      "loss": 0.001,
      "reward": 0.5191970095038414,
      "reward_std": 0.2319345511496067,
      "rewards/check_gptzero_func": 0.5191970095038414,
      "step": 46
    },
    {
      "completion_length": 185.46429061889648,
      "epoch": 0.13156053184044786,
      "grad_norm": 0.8125,
      "kl": 0.00946044921875,
      "learning_rate": 4.9855267662780715e-06,
      "loss": 0.0009,
      "reward": 0.6461608409881592,
      "reward_std": 0.1471536885946989,
      "rewards/check_gptzero_func": 0.6461608409881592,
      "step": 47
    },
    {
      "completion_length": 176.53571701049805,
      "epoch": 0.13435969209237228,
      "grad_norm": 0.82421875,
      "kl": 0.01032257080078125,
      "learning_rate": 4.982778818239101e-06,
      "loss": 0.001,
      "reward": 0.49297887086868286,
      "reward_std": 0.1380300959572196,
      "rewards/check_gptzero_func": 0.49297887086868286,
      "step": 48
    },
    {
      "completion_length": 189.15476608276367,
      "epoch": 0.1371588523442967,
      "grad_norm": 0.9765625,
      "kl": 0.01055145263671875,
      "learning_rate": 4.979793063412909e-06,
      "loss": 0.0011,
      "reward": 0.5546858608722687,
      "reward_std": 0.20936554670333862,
      "rewards/check_gptzero_func": 0.5546858608722687,
      "step": 49
    },
    {
      "completion_length": 175.32143020629883,
      "epoch": 0.13995801259622112,
      "grad_norm": 0.80859375,
      "kl": 0.0104827880859375,
      "learning_rate": 4.9765697877825844e-06,
      "loss": 0.001,
      "reward": 0.5866354256868362,
      "reward_std": 0.1675815749913454,
      "rewards/check_gptzero_func": 0.5866354256868362,
      "step": 50
    },
    {
      "completion_length": 178.88095092773438,
      "epoch": 0.14275717284814557,
      "grad_norm": 0.921875,
      "kl": 0.01032257080078125,
      "learning_rate": 4.97310930008156e-06,
      "loss": 0.001,
      "reward": 0.6669622659683228,
      "reward_std": 0.21926475502550602,
      "rewards/check_gptzero_func": 0.6669622659683228,
      "step": 51
    },
    {
      "completion_length": 180.7738151550293,
      "epoch": 0.14555633310007,
      "grad_norm": 0.83984375,
      "kl": 0.0123748779296875,
      "learning_rate": 4.969411931764033e-06,
      "loss": 0.0012,
      "reward": 0.567020371556282,
      "reward_std": 0.17968417704105377,
      "rewards/check_gptzero_func": 0.567020371556282,
      "step": 52
    },
    {
      "completion_length": 195.5357208251953,
      "epoch": 0.1483554933519944,
      "grad_norm": 0.796875,
      "kl": 0.0104827880859375,
      "learning_rate": 4.965478036973221e-06,
      "loss": 0.001,
      "reward": 0.6985915303230286,
      "reward_std": 0.17377906665205956,
      "rewards/check_gptzero_func": 0.6985915303230286,
      "step": 53
    },
    {
      "completion_length": 178.00000381469727,
      "epoch": 0.15115465360391883,
      "grad_norm": 1.0234375,
      "kl": 0.01174163818359375,
      "learning_rate": 4.9613079925074435e-06,
      "loss": 0.0012,
      "reward": 0.6754837036132812,
      "reward_std": 0.2185358963906765,
      "rewards/check_gptzero_func": 0.6754837036132812,
      "step": 54
    },
    {
      "completion_length": 172.64286041259766,
      "epoch": 0.15395381385584325,
      "grad_norm": 0.8203125,
      "kl": 0.0126953125,
      "learning_rate": 4.956902197784025e-06,
      "loss": 0.0013,
      "reward": 0.5507477447390556,
      "reward_std": 0.12427662499248981,
      "rewards/check_gptzero_func": 0.5507477447390556,
      "step": 55
    },
    {
      "completion_length": 178.40476608276367,
      "epoch": 0.15675297410776767,
      "grad_norm": 0.83984375,
      "kl": 0.01100921630859375,
      "learning_rate": 4.952261074801043e-06,
      "loss": 0.0011,
      "reward": 0.7200377136468887,
      "reward_std": 0.1754942275583744,
      "rewards/check_gptzero_func": 0.7200377136468887,
      "step": 56
    },
    {
      "completion_length": 177.02381134033203,
      "epoch": 0.1595521343596921,
      "grad_norm": 0.859375,
      "kl": 0.01055908203125,
      "learning_rate": 4.947385068096907e-06,
      "loss": 0.0011,
      "reward": 0.7536474019289017,
      "reward_std": 0.12843344174325466,
      "rewards/check_gptzero_func": 0.7536474019289017,
      "step": 57
    },
    {
      "completion_length": 197.3571434020996,
      "epoch": 0.16235129461161651,
      "grad_norm": 0.8515625,
      "kl": 0.00899505615234375,
      "learning_rate": 4.942274644707778e-06,
      "loss": 0.0009,
      "reward": 0.5334034785628319,
      "reward_std": 0.22946524992585182,
      "rewards/check_gptzero_func": 0.5334034785628319,
      "step": 58
    },
    {
      "completion_length": 182.14286041259766,
      "epoch": 0.16515045486354094,
      "grad_norm": 0.921875,
      "kl": 0.01129150390625,
      "learning_rate": 4.936930294122838e-06,
      "loss": 0.0011,
      "reward": 0.5683771669864655,
      "reward_std": 0.1916387351229787,
      "rewards/check_gptzero_func": 0.5683771669864655,
      "step": 59
    },
    {
      "completion_length": 173.2023811340332,
      "epoch": 0.16794961511546536,
      "grad_norm": 0.92578125,
      "kl": 0.01171875,
      "learning_rate": 4.931352528237398e-06,
      "loss": 0.0012,
      "reward": 0.6447094231843948,
      "reward_std": 0.19410214200615883,
      "rewards/check_gptzero_func": 0.6447094231843948,
      "step": 60
    },
    {
      "completion_length": 185.6428565979004,
      "epoch": 0.17074877536738978,
      "grad_norm": 0.8515625,
      "kl": 0.00968170166015625,
      "learning_rate": 4.925541881303876e-06,
      "loss": 0.001,
      "reward": 0.6383133828639984,
      "reward_std": 0.18484976701438427,
      "rewards/check_gptzero_func": 0.6383133828639984,
      "step": 61
    },
    {
      "completion_length": 189.1785774230957,
      "epoch": 0.1735479356193142,
      "grad_norm": 1.0078125,
      "kl": 0.008331298828125,
      "learning_rate": 4.919498909880621e-06,
      "loss": 0.0008,
      "reward": 0.6155931651592255,
      "reward_std": 0.18777143955230713,
      "rewards/check_gptzero_func": 0.6155931651592255,
      "step": 62
    },
    {
      "completion_length": 191.80952835083008,
      "epoch": 0.17634709587123862,
      "grad_norm": 0.8046875,
      "kl": 0.00836181640625,
      "learning_rate": 4.913224192778604e-06,
      "loss": 0.0008,
      "reward": 0.6793939918279648,
      "reward_std": 0.09720544703304768,
      "rewards/check_gptzero_func": 0.6793939918279648,
      "step": 63
    },
    {
      "completion_length": 171.97619247436523,
      "epoch": 0.17914625612316304,
      "grad_norm": 0.88671875,
      "kl": 0.00908660888671875,
      "learning_rate": 4.906718331005979e-06,
      "loss": 0.0009,
      "reward": 0.44309166073799133,
      "reward_std": 0.2190867941826582,
      "rewards/check_gptzero_func": 0.44309166073799133,
      "step": 64
    },
    {
      "completion_length": 175.59524154663086,
      "epoch": 0.1819454163750875,
      "grad_norm": 0.9140625,
      "kl": 0.00946044921875,
      "learning_rate": 4.899981947710518e-06,
      "loss": 0.0009,
      "reward": 0.5109639540314674,
      "reward_std": 0.15947622060775757,
      "rewards/check_gptzero_func": 0.5109639540314674,
      "step": 65
    },
    {
      "completion_length": 184.76190948486328,
      "epoch": 0.1847445766270119,
      "grad_norm": 0.90234375,
      "kl": 0.009246826171875,
      "learning_rate": 4.893015688119921e-06,
      "loss": 0.0009,
      "reward": 0.5143184289336205,
      "reward_std": 0.2525811605155468,
      "rewards/check_gptzero_func": 0.5143184289336205,
      "step": 66
    },
    {
      "completion_length": 174.76191329956055,
      "epoch": 0.18754373687893633,
      "grad_norm": 0.890625,
      "kl": 0.0095367431640625,
      "learning_rate": 4.885820219480018e-06,
      "loss": 0.001,
      "reward": 0.6203874498605728,
      "reward_std": 0.20078162848949432,
      "rewards/check_gptzero_func": 0.6203874498605728,
      "step": 67
    },
    {
      "completion_length": 184.2738151550293,
      "epoch": 0.19034289713086075,
      "grad_norm": 0.98046875,
      "kl": 0.008697509765625,
      "learning_rate": 4.8783962309908564e-06,
      "loss": 0.0009,
      "reward": 0.5816539227962494,
      "reward_std": 0.23236144706606865,
      "rewards/check_gptzero_func": 0.5816539227962494,
      "step": 68
    },
    {
      "completion_length": 184.0,
      "epoch": 0.19314205738278517,
      "grad_norm": 0.8984375,
      "kl": 0.00894927978515625,
      "learning_rate": 4.870744433740688e-06,
      "loss": 0.0009,
      "reward": 0.6825973987579346,
      "reward_std": 0.17790008522570133,
      "rewards/check_gptzero_func": 0.6825973987579346,
      "step": 69
    },
    {
      "completion_length": 204.1785774230957,
      "epoch": 0.1959412176347096,
      "grad_norm": 0.8203125,
      "kl": 0.00753021240234375,
      "learning_rate": 4.8628655606378625e-06,
      "loss": 0.0008,
      "reward": 0.6512226462364197,
      "reward_std": 0.22282536327838898,
      "rewards/check_gptzero_func": 0.6512226462364197,
      "step": 70
    },
    {
      "completion_length": 188.47619247436523,
      "epoch": 0.198740377886634,
      "grad_norm": 0.96875,
      "kl": 0.00823974609375,
      "learning_rate": 4.854760366340619e-06,
      "loss": 0.0008,
      "reward": 0.6291620433330536,
      "reward_std": 0.18235865235328674,
      "rewards/check_gptzero_func": 0.6291620433330536,
      "step": 71
    },
    {
      "completion_length": 191.6428565979004,
      "epoch": 0.20153953813855843,
      "grad_norm": 1.0078125,
      "kl": 0.00788116455078125,
      "learning_rate": 4.846429627184816e-06,
      "loss": 0.0008,
      "reward": 0.5630831271409988,
      "reward_std": 0.20192383974790573,
      "rewards/check_gptzero_func": 0.5630831271409988,
      "step": 72
    },
    {
      "completion_length": 186.39286422729492,
      "epoch": 0.20433869839048285,
      "grad_norm": 1.0078125,
      "kl": 0.0083770751953125,
      "learning_rate": 4.837874141109557e-06,
      "loss": 0.0008,
      "reward": 0.566518671810627,
      "reward_std": 0.2747541069984436,
      "rewards/check_gptzero_func": 0.566518671810627,
      "step": 73
    },
    {
      "completion_length": 197.75000381469727,
      "epoch": 0.20713785864240727,
      "grad_norm": 0.9140625,
      "kl": 0.0078887939453125,
      "learning_rate": 4.829094727580775e-06,
      "loss": 0.0008,
      "reward": 0.6935234069824219,
      "reward_std": 0.12828794866800308,
      "rewards/check_gptzero_func": 0.6935234069824219,
      "step": 74
    },
    {
      "completion_length": 182.94047927856445,
      "epoch": 0.2099370188943317,
      "grad_norm": 1.0859375,
      "kl": 0.0101470947265625,
      "learning_rate": 4.820092227512736e-06,
      "loss": 0.001,
      "reward": 0.5632592514157295,
      "reward_std": 0.20659778825938702,
      "rewards/check_gptzero_func": 0.5632592514157295,
      "step": 75
    },
    {
      "completion_length": 189.26190948486328,
      "epoch": 0.21273617914625612,
      "grad_norm": 0.97265625,
      "kl": 0.0099639892578125,
      "learning_rate": 4.810867503187492e-06,
      "loss": 0.001,
      "reward": 0.6693995073437691,
      "reward_std": 0.15574552537873387,
      "rewards/check_gptzero_func": 0.6693995073437691,
      "step": 76
    },
    {
      "completion_length": 202.20238494873047,
      "epoch": 0.21553533939818054,
      "grad_norm": 1.046875,
      "kl": 0.0087127685546875,
      "learning_rate": 4.8014214381722945e-06,
      "loss": 0.0009,
      "reward": 0.6062769070267677,
      "reward_std": 0.269734937697649,
      "rewards/check_gptzero_func": 0.6062769070267677,
      "step": 77
    },
    {
      "completion_length": 201.22619247436523,
      "epoch": 0.21833449965010496,
      "grad_norm": 0.953125,
      "kl": 0.00868988037109375,
      "learning_rate": 4.791754937234962e-06,
      "loss": 0.0009,
      "reward": 0.5902510657906532,
      "reward_std": 0.20445209927856922,
      "rewards/check_gptzero_func": 0.5902510657906532,
      "step": 78
    },
    {
      "completion_length": 191.41666793823242,
      "epoch": 0.22113365990202938,
      "grad_norm": 0.859375,
      "kl": 0.0099029541015625,
      "learning_rate": 4.781868926257216e-06,
      "loss": 0.001,
      "reward": 0.7119332551956177,
      "reward_std": 0.1272009308449924,
      "rewards/check_gptzero_func": 0.7119332551956177,
      "step": 79
    },
    {
      "completion_length": 201.95238494873047,
      "epoch": 0.22393282015395383,
      "grad_norm": 0.9609375,
      "kl": 0.01006317138671875,
      "learning_rate": 4.771764352146005e-06,
      "loss": 0.001,
      "reward": 0.6730313450098038,
      "reward_std": 0.23449595272541046,
      "rewards/check_gptzero_func": 0.6730313450098038,
      "step": 80
    },
    {
      "completion_length": 181.53571701049805,
      "epoch": 0.22673198040587825,
      "grad_norm": 1.15625,
      "kl": 0.0106964111328125,
      "learning_rate": 4.761442182742799e-06,
      "loss": 0.0011,
      "reward": 0.5613239407539368,
      "reward_std": 0.21234364807605743,
      "rewards/check_gptzero_func": 0.5613239407539368,
      "step": 81
    },
    {
      "completion_length": 184.67857360839844,
      "epoch": 0.22953114065780267,
      "grad_norm": 0.9765625,
      "kl": 0.0101776123046875,
      "learning_rate": 4.750903406730895e-06,
      "loss": 0.001,
      "reward": 0.5844283923506737,
      "reward_std": 0.21481262892484665,
      "rewards/check_gptzero_func": 0.5844283923506737,
      "step": 82
    },
    {
      "completion_length": 169.38095474243164,
      "epoch": 0.2323303009097271,
      "grad_norm": 1.1484375,
      "kl": 0.0128021240234375,
      "learning_rate": 4.740149033540711e-06,
      "loss": 0.0013,
      "reward": 0.6525488644838333,
      "reward_std": 0.19818515330553055,
      "rewards/check_gptzero_func": 0.6525488644838333,
      "step": 83
    },
    {
      "completion_length": 178.3809585571289,
      "epoch": 0.2351294611616515,
      "grad_norm": 1.0859375,
      "kl": 0.010101318359375,
      "learning_rate": 4.729180093253106e-06,
      "loss": 0.001,
      "reward": 0.6054461151361465,
      "reward_std": 0.22233787178993225,
      "rewards/check_gptzero_func": 0.6054461151361465,
      "step": 84
    },
    {
      "completion_length": 185.47619247436523,
      "epoch": 0.23792862141357593,
      "grad_norm": 0.93359375,
      "kl": 0.0096588134765625,
      "learning_rate": 4.717997636500715e-06,
      "loss": 0.001,
      "reward": 0.5751017481088638,
      "reward_std": 0.19414596632122993,
      "rewards/check_gptzero_func": 0.5751017481088638,
      "step": 85
    },
    {
      "completion_length": 176.61904907226562,
      "epoch": 0.24072778166550035,
      "grad_norm": 0.90234375,
      "kl": 0.0117034912109375,
      "learning_rate": 4.706602734367314e-06,
      "loss": 0.0012,
      "reward": 0.6652742102742195,
      "reward_std": 0.1461728010326624,
      "rewards/check_gptzero_func": 0.6652742102742195,
      "step": 86
    },
    {
      "completion_length": 204.6785774230957,
      "epoch": 0.24352694191742477,
      "grad_norm": 0.8203125,
      "kl": 0.00868988037109375,
      "learning_rate": 4.694996478285232e-06,
      "loss": 0.0009,
      "reward": 0.5329968556761742,
      "reward_std": 0.23187025263905525,
      "rewards/check_gptzero_func": 0.5329968556761742,
      "step": 87
    },
    {
      "completion_length": 191.7738151550293,
      "epoch": 0.2463261021693492,
      "grad_norm": 0.9140625,
      "kl": 0.0092010498046875,
      "learning_rate": 4.683179979930808e-06,
      "loss": 0.0009,
      "reward": 0.660212829709053,
      "reward_std": 0.17499383352696896,
      "rewards/check_gptzero_func": 0.660212829709053,
      "step": 88
    },
    {
      "completion_length": 188.29762268066406,
      "epoch": 0.2491252624212736,
      "grad_norm": 0.85546875,
      "kl": 0.01043701171875,
      "learning_rate": 4.6711543711179155e-06,
      "loss": 0.001,
      "reward": 0.6105453222990036,
      "reward_std": 0.1719030626118183,
      "rewards/check_gptzero_func": 0.6105453222990036,
      "step": 89
    },
    {
      "completion_length": 185.86904907226562,
      "epoch": 0.25192442267319803,
      "grad_norm": 1.0234375,
      "kl": 0.01029205322265625,
      "learning_rate": 4.658920803689553e-06,
      "loss": 0.001,
      "reward": 0.6307502388954163,
      "reward_std": 0.26598427444696426,
      "rewards/check_gptzero_func": 0.6307502388954163,
      "step": 90
    },
    {
      "completion_length": 180.8571434020996,
      "epoch": 0.2547235829251225,
      "grad_norm": 0.9765625,
      "kl": 0.0113525390625,
      "learning_rate": 4.646480449407516e-06,
      "loss": 0.0011,
      "reward": 0.661887601017952,
      "reward_std": 0.17039467580616474,
      "rewards/check_gptzero_func": 0.661887601017952,
      "step": 91
    },
    {
      "completion_length": 175.97619247436523,
      "epoch": 0.2575227431770469,
      "grad_norm": 1.09375,
      "kl": 0.0103912353515625,
      "learning_rate": 4.633834499840164e-06,
      "loss": 0.001,
      "reward": 0.6470509469509125,
      "reward_std": 0.11666383501142263,
      "rewards/check_gptzero_func": 0.6470509469509125,
      "step": 92
    },
    {
      "completion_length": 196.95238494873047,
      "epoch": 0.2603219034289713,
      "grad_norm": 0.87890625,
      "kl": 0.00783538818359375,
      "learning_rate": 4.620984166248288e-06,
      "loss": 0.0008,
      "reward": 0.645782083272934,
      "reward_std": 0.16378989815711975,
      "rewards/check_gptzero_func": 0.645782083272934,
      "step": 93
    },
    {
      "completion_length": 184.09524536132812,
      "epoch": 0.2631210636808957,
      "grad_norm": 0.92578125,
      "kl": 0.00963592529296875,
      "learning_rate": 4.607930679469096e-06,
      "loss": 0.001,
      "reward": 0.6375631093978882,
      "reward_std": 0.12679122015833855,
      "rewards/check_gptzero_func": 0.6375631093978882,
      "step": 94
    },
    {
      "completion_length": 187.78571701049805,
      "epoch": 0.26592022393282017,
      "grad_norm": 0.84375,
      "kl": 0.009124755859375,
      "learning_rate": 4.594675289798317e-06,
      "loss": 0.0009,
      "reward": 0.6679813116788864,
      "reward_std": 0.19044114090502262,
      "rewards/check_gptzero_func": 0.6679813116788864,
      "step": 95
    },
    {
      "completion_length": 174.94048309326172,
      "epoch": 0.26871938418474456,
      "grad_norm": 0.9609375,
      "kl": 0.01029205322265625,
      "learning_rate": 4.5812192668704454e-06,
      "loss": 0.001,
      "reward": 0.5234083607792854,
      "reward_std": 0.2531973347067833,
      "rewards/check_gptzero_func": 0.5234083607792854,
      "step": 96
    },
    {
      "completion_length": 183.19048309326172,
      "epoch": 0.271518544436669,
      "grad_norm": 0.90234375,
      "kl": 0.00909423828125,
      "learning_rate": 4.5675638995371355e-06,
      "loss": 0.0009,
      "reward": 0.5966005846858025,
      "reward_std": 0.22473083063960075,
      "rewards/check_gptzero_func": 0.5966005846858025,
      "step": 97
    },
    {
      "completion_length": 183.14286041259766,
      "epoch": 0.2743177046885934,
      "grad_norm": 0.85546875,
      "kl": 0.0090484619140625,
      "learning_rate": 4.553710495743744e-06,
      "loss": 0.0009,
      "reward": 0.5813074707984924,
      "reward_std": 0.1640096753835678,
      "rewards/check_gptzero_func": 0.5813074707984924,
      "step": 98
    },
    {
      "completion_length": 198.46429061889648,
      "epoch": 0.27711686494051785,
      "grad_norm": 0.88671875,
      "kl": 0.0083465576171875,
      "learning_rate": 4.53966038240406e-06,
      "loss": 0.0008,
      "reward": 0.48446883261203766,
      "reward_std": 0.14858301915228367,
      "rewards/check_gptzero_func": 0.48446883261203766,
      "step": 99
    },
    {
      "completion_length": 158.04762268066406,
      "epoch": 0.27991602519244224,
      "grad_norm": 1.0625,
      "kl": 0.0104522705078125,
      "learning_rate": 4.525414905273208e-06,
      "loss": 0.001,
      "reward": 0.6134350448846817,
      "reward_std": 0.15003260038793087,
      "rewards/check_gptzero_func": 0.6134350448846817,
      "step": 100
    },
    {
      "completion_length": 178.0595245361328,
      "epoch": 0.2827151854443667,
      "grad_norm": 0.90234375,
      "kl": 0.0092010498046875,
      "learning_rate": 4.510975428818743e-06,
      "loss": 0.0009,
      "reward": 0.6400493085384369,
      "reward_std": 0.12321909703314304,
      "rewards/check_gptzero_func": 0.6400493085384369,
      "step": 101
    },
    {
      "completion_length": 202.76190567016602,
      "epoch": 0.28551434569629114,
      "grad_norm": 0.9140625,
      "kl": 0.007781982421875,
      "learning_rate": 4.496343336089965e-06,
      "loss": 0.0008,
      "reward": 0.5859105363488197,
      "reward_std": 0.12806045822799206,
      "rewards/check_gptzero_func": 0.5859105363488197,
      "step": 102
    },
    {
      "completion_length": 171.26190948486328,
      "epoch": 0.28831350594821553,
      "grad_norm": 1.1015625,
      "kl": 0.0096588134765625,
      "learning_rate": 4.481520028585445e-06,
      "loss": 0.001,
      "reward": 0.5852581560611725,
      "reward_std": 0.22868289425969124,
      "rewards/check_gptzero_func": 0.5852581560611725,
      "step": 103
    },
    {
      "completion_length": 180.51190948486328,
      "epoch": 0.29111266620014,
      "grad_norm": 1.0,
      "kl": 0.010009765625,
      "learning_rate": 4.466506926118782e-06,
      "loss": 0.001,
      "reward": 0.6214292347431183,
      "reward_std": 0.20645314827561378,
      "rewards/check_gptzero_func": 0.6214292347431183,
      "step": 104
    },
    {
      "completion_length": 195.03571701049805,
      "epoch": 0.2939118264520644,
      "grad_norm": 0.8359375,
      "kl": 0.00890350341796875,
      "learning_rate": 4.451305466682615e-06,
      "loss": 0.0009,
      "reward": 0.5131512135267258,
      "reward_std": 0.22282657399773598,
      "rewards/check_gptzero_func": 0.5131512135267258,
      "step": 105
    },
    {
      "completion_length": 185.69047927856445,
      "epoch": 0.2967109867039888,
      "grad_norm": 0.8515625,
      "kl": 0.01049041748046875,
      "learning_rate": 4.435917106310887e-06,
      "loss": 0.0011,
      "reward": 0.6954147666692734,
      "reward_std": 0.11661373171955347,
      "rewards/check_gptzero_func": 0.6954147666692734,
      "step": 106
    },
    {
      "completion_length": 184.50000381469727,
      "epoch": 0.2995101469559132,
      "grad_norm": 0.80078125,
      "kl": 0.0090484619140625,
      "learning_rate": 4.420343318939378e-06,
      "loss": 0.0009,
      "reward": 0.7220865786075592,
      "reward_std": 0.11773823061957955,
      "rewards/check_gptzero_func": 0.7220865786075592,
      "step": 107
    },
    {
      "completion_length": 193.82143020629883,
      "epoch": 0.30230930720783766,
      "grad_norm": 0.88671875,
      "kl": 0.0087432861328125,
      "learning_rate": 4.404585596264537e-06,
      "loss": 0.0009,
      "reward": 0.6370752304792404,
      "reward_std": 0.22320828214287758,
      "rewards/check_gptzero_func": 0.6370752304792404,
      "step": 108
    },
    {
      "completion_length": 184.55952835083008,
      "epoch": 0.30510846745976206,
      "grad_norm": 0.8671875,
      "kl": 0.009765625,
      "learning_rate": 4.388645447600593e-06,
      "loss": 0.001,
      "reward": 0.7004173994064331,
      "reward_std": 0.14368313550949097,
      "rewards/check_gptzero_func": 0.7004173994064331,
      "step": 109
    },
    {
      "completion_length": 186.66666793823242,
      "epoch": 0.3079076277116865,
      "grad_norm": 0.875,
      "kl": 0.01068115234375,
      "learning_rate": 4.372524399734998e-06,
      "loss": 0.0011,
      "reward": 0.6180136650800705,
      "reward_std": 0.16962039656937122,
      "rewards/check_gptzero_func": 0.6180136650800705,
      "step": 110
    },
    {
      "completion_length": 182.40476608276367,
      "epoch": 0.3107067879636109,
      "grad_norm": 0.875,
      "kl": 0.00982666015625,
      "learning_rate": 4.356223996782181e-06,
      "loss": 0.001,
      "reward": 0.6765602007508278,
      "reward_std": 0.15866447985172272,
      "rewards/check_gptzero_func": 0.6765602007508278,
      "step": 111
    },
    {
      "completion_length": 186.48810195922852,
      "epoch": 0.31350594821553535,
      "grad_norm": 0.92578125,
      "kl": 0.0094451904296875,
      "learning_rate": 4.339745800035652e-06,
      "loss": 0.0009,
      "reward": 0.6582833528518677,
      "reward_std": 0.15360314585268497,
      "rewards/check_gptzero_func": 0.6582833528518677,
      "step": 112
    },
    {
      "completion_length": 184.5238151550293,
      "epoch": 0.31630510846745974,
      "grad_norm": 0.92578125,
      "kl": 0.01065826416015625,
      "learning_rate": 4.323091387818459e-06,
      "loss": 0.0011,
      "reward": 0.5341470539569855,
      "reward_std": 0.23594587668776512,
      "rewards/check_gptzero_func": 0.5341470539569855,
      "step": 113
    },
    {
      "completion_length": 194.97619247436523,
      "epoch": 0.3191042687193842,
      "grad_norm": 0.83203125,
      "kl": 0.00930023193359375,
      "learning_rate": 4.306262355332006e-06,
      "loss": 0.0009,
      "reward": 0.6334607377648354,
      "reward_std": 0.17327153496444225,
      "rewards/check_gptzero_func": 0.6334607377648354,
      "step": 114
    },
    {
      "completion_length": 188.2857208251953,
      "epoch": 0.3219034289713086,
      "grad_norm": 0.875,
      "kl": 0.01202392578125,
      "learning_rate": 4.2892603145032684e-06,
      "loss": 0.0012,
      "reward": 0.6626207306981087,
      "reward_std": 0.18220025673508644,
      "rewards/check_gptzero_func": 0.6626207306981087,
      "step": 115
    },
    {
      "completion_length": 182.67857360839844,
      "epoch": 0.32470258922323303,
      "grad_norm": 0.88671875,
      "kl": 0.01158905029296875,
      "learning_rate": 4.272086893830394e-06,
      "loss": 0.0012,
      "reward": 0.6602620035409927,
      "reward_std": 0.15469545125961304,
      "rewards/check_gptzero_func": 0.6602620035409927,
      "step": 116
    },
    {
      "completion_length": 185.90476608276367,
      "epoch": 0.3275017494751575,
      "grad_norm": 0.83984375,
      "kl": 0.011932373046875,
      "learning_rate": 4.254743738226721e-06,
      "loss": 0.0012,
      "reward": 0.6419829577207565,
      "reward_std": 0.18072698265314102,
      "rewards/check_gptzero_func": 0.6419829577207565,
      "step": 117
    },
    {
      "completion_length": 189.59524154663086,
      "epoch": 0.33030090972708187,
      "grad_norm": 0.87109375,
      "kl": 0.01031494140625,
      "learning_rate": 4.237232508863226e-06,
      "loss": 0.001,
      "reward": 0.8117964118719101,
      "reward_std": 0.11239873245358467,
      "rewards/check_gptzero_func": 0.8117964118719101,
      "step": 118
    },
    {
      "completion_length": 179.75,
      "epoch": 0.3331000699790063,
      "grad_norm": 0.921875,
      "kl": 0.01169586181640625,
      "learning_rate": 4.219554883009412e-06,
      "loss": 0.0012,
      "reward": 0.6252808570861816,
      "reward_std": 0.16097365505993366,
      "rewards/check_gptzero_func": 0.6252808570861816,
      "step": 119
    },
    {
      "completion_length": 191.64286041259766,
      "epoch": 0.3358992302309307,
      "grad_norm": 0.9921875,
      "kl": 0.013031005859375,
      "learning_rate": 4.2017125538726574e-06,
      "loss": 0.0013,
      "reward": 0.656028687953949,
      "reward_std": 0.21221196837723255,
      "rewards/check_gptzero_func": 0.656028687953949,
      "step": 120
    },
    {
      "completion_length": 189.71429061889648,
      "epoch": 0.33869839048285516,
      "grad_norm": 0.890625,
      "kl": 0.010650634765625,
      "learning_rate": 4.183707230436032e-06,
      "loss": 0.0011,
      "reward": 0.6637793928384781,
      "reward_std": 0.21517397835850716,
      "rewards/check_gptzero_func": 0.6637793928384781,
      "step": 121
    },
    {
      "completion_length": 201.35714721679688,
      "epoch": 0.34149755073477955,
      "grad_norm": 0.8203125,
      "kl": 0.00860595703125,
      "learning_rate": 4.165540637294608e-06,
      "loss": 0.0009,
      "reward": 0.6951557993888855,
      "reward_std": 0.20356887206435204,
      "rewards/check_gptzero_func": 0.6951557993888855,
      "step": 122
    },
    {
      "completion_length": 174.3690528869629,
      "epoch": 0.344296710986704,
      "grad_norm": 1.015625,
      "kl": 0.0137176513671875,
      "learning_rate": 4.147214514490278e-06,
      "loss": 0.0014,
      "reward": 0.6053376868367195,
      "reward_std": 0.14120884239673615,
      "rewards/check_gptzero_func": 0.6053376868367195,
      "step": 123
    },
    {
      "completion_length": 191.35715103149414,
      "epoch": 0.3470958712386284,
      "grad_norm": 0.87890625,
      "kl": 0.0111083984375,
      "learning_rate": 4.128730617345085e-06,
      "loss": 0.0011,
      "reward": 0.6748835146427155,
      "reward_std": 0.15946420282125473,
      "rewards/check_gptzero_func": 0.6748835146427155,
      "step": 124
    },
    {
      "completion_length": 186.58333587646484,
      "epoch": 0.34989503149055284,
      "grad_norm": 0.8671875,
      "kl": 0.01071929931640625,
      "learning_rate": 4.110090716293093e-06,
      "loss": 0.0011,
      "reward": 0.5565099567174911,
      "reward_std": 0.14936872385442257,
      "rewards/check_gptzero_func": 0.5565099567174911,
      "step": 125
    },
    {
      "completion_length": 177.53571319580078,
      "epoch": 0.35269419174247724,
      "grad_norm": 0.88671875,
      "kl": 0.0113983154296875,
      "learning_rate": 4.091296596710812e-06,
      "loss": 0.0011,
      "reward": 0.6619952172040939,
      "reward_std": 0.1810350650921464,
      "rewards/check_gptzero_func": 0.6619952172040939,
      "step": 126
    },
    {
      "completion_length": 173.91666793823242,
      "epoch": 0.3554933519944017,
      "grad_norm": 0.90234375,
      "kl": 0.0118255615234375,
      "learning_rate": 4.072350058746193e-06,
      "loss": 0.0012,
      "reward": 0.6603459864854813,
      "reward_std": 0.22001322731375694,
      "rewards/check_gptzero_func": 0.6603459864854813,
      "step": 127
    },
    {
      "completion_length": 173.76190567016602,
      "epoch": 0.3582925122463261,
      "grad_norm": 0.9921875,
      "kl": 0.0127410888671875,
      "learning_rate": 4.053252917146198e-06,
      "loss": 0.0013,
      "reward": 0.7352914214134216,
      "reward_std": 0.1779029555618763,
      "rewards/check_gptzero_func": 0.7352914214134216,
      "step": 128
    },
    {
      "completion_length": 171.26190567016602,
      "epoch": 0.3610916724982505,
      "grad_norm": 0.84765625,
      "kl": 0.012054443359375,
      "learning_rate": 4.034007001082985e-06,
      "loss": 0.0012,
      "reward": 0.6395312622189522,
      "reward_std": 0.15299177914857864,
      "rewards/check_gptzero_func": 0.6395312622189522,
      "step": 129
    },
    {
      "completion_length": 179.78571701049805,
      "epoch": 0.363890832750175,
      "grad_norm": 0.92578125,
      "kl": 0.01220703125,
      "learning_rate": 4.014614153978704e-06,
      "loss": 0.0012,
      "reward": 0.6132207363843918,
      "reward_std": 0.21152934804558754,
      "rewards/check_gptzero_func": 0.6132207363843918,
      "step": 130
    },
    {
      "completion_length": 195.92857360839844,
      "epoch": 0.36668999300209937,
      "grad_norm": 0.78125,
      "kl": 0.01036834716796875,
      "learning_rate": 3.99507623332893e-06,
      "loss": 0.001,
      "reward": 0.7027375251054764,
      "reward_std": 0.15015212446451187,
      "rewards/check_gptzero_func": 0.7027375251054764,
      "step": 131
    },
    {
      "completion_length": 180.5357208251953,
      "epoch": 0.3694891532540238,
      "grad_norm": 0.828125,
      "kl": 0.0123291015625,
      "learning_rate": 3.975395110524742e-06,
      "loss": 0.0012,
      "reward": 0.6938442587852478,
      "reward_std": 0.13277364149689674,
      "rewards/check_gptzero_func": 0.6938442587852478,
      "step": 132
    },
    {
      "completion_length": 189.3333396911621,
      "epoch": 0.3722883135059482,
      "grad_norm": 0.890625,
      "kl": 0.0106048583984375,
      "learning_rate": 3.955572670673486e-06,
      "loss": 0.0011,
      "reward": 0.6352255120873451,
      "reward_std": 0.16060136631131172,
      "rewards/check_gptzero_func": 0.6352255120873451,
      "step": 133
    },
    {
      "completion_length": 180.3690528869629,
      "epoch": 0.37508747375787266,
      "grad_norm": 0.93359375,
      "kl": 0.0124359130859375,
      "learning_rate": 3.935610812418207e-06,
      "loss": 0.0012,
      "reward": 0.6548151075839996,
      "reward_std": 0.20537016168236732,
      "rewards/check_gptzero_func": 0.6548151075839996,
      "step": 134
    },
    {
      "completion_length": 167.08333587646484,
      "epoch": 0.37788663400979705,
      "grad_norm": 1.15625,
      "kl": 0.01214599609375,
      "learning_rate": 3.915511447755793e-06,
      "loss": 0.0012,
      "reward": 0.6178692057728767,
      "reward_std": 0.17171020805835724,
      "rewards/check_gptzero_func": 0.6178692057728767,
      "step": 135
    },
    {
      "completion_length": 185.71429061889648,
      "epoch": 0.3806857942617215,
      "grad_norm": 0.85546875,
      "kl": 0.0107269287109375,
      "learning_rate": 3.895276501853846e-06,
      "loss": 0.0011,
      "reward": 0.5686581507325172,
      "reward_std": 0.17122036777436733,
      "rewards/check_gptzero_func": 0.5686581507325172,
      "step": 136
    },
    {
      "completion_length": 195.21429061889648,
      "epoch": 0.3834849545136459,
      "grad_norm": 0.875,
      "kl": 0.0097503662109375,
      "learning_rate": 3.8749079128662715e-06,
      "loss": 0.001,
      "reward": 0.6965835765004158,
      "reward_std": 0.11745740473270416,
      "rewards/check_gptzero_func": 0.6965835765004158,
      "step": 137
    },
    {
      "completion_length": 192.04762649536133,
      "epoch": 0.38628411476557034,
      "grad_norm": 0.84375,
      "kl": 0.01324462890625,
      "learning_rate": 3.854407631747653e-06,
      "loss": 0.0013,
      "reward": 0.6779208928346634,
      "reward_std": 0.17420672625303268,
      "rewards/check_gptzero_func": 0.6779208928346634,
      "step": 138
    },
    {
      "completion_length": 186.09524154663086,
      "epoch": 0.38908327501749473,
      "grad_norm": 0.8671875,
      "kl": 0.0122528076171875,
      "learning_rate": 3.833777622066374e-06,
      "loss": 0.0012,
      "reward": 0.6140344738960266,
      "reward_std": 0.1967415027320385,
      "rewards/check_gptzero_func": 0.6140344738960266,
      "step": 139
    },
    {
      "completion_length": 188.20238494873047,
      "epoch": 0.3918824352694192,
      "grad_norm": 0.83203125,
      "kl": 0.0146331787109375,
      "learning_rate": 3.8130198598165447e-06,
      "loss": 0.0015,
      "reward": 0.7608011960983276,
      "reward_std": 0.1561479065567255,
      "rewards/check_gptzero_func": 0.7608011960983276,
      "step": 140
    },
    {
      "completion_length": 197.88095092773438,
      "epoch": 0.3946815955213436,
      "grad_norm": 0.8515625,
      "kl": 0.0110931396484375,
      "learning_rate": 3.7921363332287354e-06,
      "loss": 0.0011,
      "reward": 0.6567741185426712,
      "reward_std": 0.186597790569067,
      "rewards/check_gptzero_func": 0.6567741185426712,
      "step": 141
    },
    {
      "completion_length": 191.01190567016602,
      "epoch": 0.397480755773268,
      "grad_norm": 0.87109375,
      "kl": 0.01143646240234375,
      "learning_rate": 3.7711290425795453e-06,
      "loss": 0.0011,
      "reward": 0.769344687461853,
      "reward_std": 0.14905713684856892,
      "rewards/check_gptzero_func": 0.769344687461853,
      "step": 142
    },
    {
      "completion_length": 195.35714721679688,
      "epoch": 0.4002799160251924,
      "grad_norm": 0.91015625,
      "kl": 0.01220703125,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.0012,
      "reward": 0.5832869336009026,
      "reward_std": 0.17275189980864525,
      "rewards/check_gptzero_func": 0.5832869336009026,
      "step": 143
    },
    {
      "completion_length": 187.6428565979004,
      "epoch": 0.40307907627711687,
      "grad_norm": 0.87890625,
      "kl": 0.0144500732421875,
      "learning_rate": 3.7287512292828364e-06,
      "loss": 0.0014,
      "reward": 0.6654903590679169,
      "reward_std": 0.12800591439008713,
      "rewards/check_gptzero_func": 0.6654903590679169,
      "step": 144
    },
    {
      "completion_length": 182.00000381469727,
      "epoch": 0.4058782365290413,
      "grad_norm": 0.87890625,
      "kl": 0.014068603515625,
      "learning_rate": 3.707384765688649e-06,
      "loss": 0.0014,
      "reward": 0.6202088594436646,
      "reward_std": 0.1452749650925398,
      "rewards/check_gptzero_func": 0.6202088594436646,
      "step": 145
    },
    {
      "completion_length": 183.88095474243164,
      "epoch": 0.4086773967809657,
      "grad_norm": 1.015625,
      "kl": 0.013336181640625,
      "learning_rate": 3.6859026557509525e-06,
      "loss": 0.0013,
      "reward": 0.6348527073860168,
      "reward_std": 0.1373548824340105,
      "rewards/check_gptzero_func": 0.6348527073860168,
      "step": 146
    },
    {
      "completion_length": 194.55952835083008,
      "epoch": 0.41147655703289016,
      "grad_norm": 1.1328125,
      "kl": 0.0120391845703125,
      "learning_rate": 3.6643069570801593e-06,
      "loss": 0.0012,
      "reward": 0.6138034015893936,
      "reward_std": 0.2177984118461609,
      "rewards/check_gptzero_func": 0.6138034015893936,
      "step": 147
    },
    {
      "completion_length": 203.25,
      "epoch": 0.41427571728481455,
      "grad_norm": 0.75,
      "kl": 0.0098419189453125,
      "learning_rate": 3.6425997381664955e-06,
      "loss": 0.001,
      "reward": 0.6724039763212204,
      "reward_std": 0.14088603854179382,
      "rewards/check_gptzero_func": 0.6724039763212204,
      "step": 148
    },
    {
      "completion_length": 180.29762268066406,
      "epoch": 0.417074877536739,
      "grad_norm": 1.078125,
      "kl": 0.0143280029296875,
      "learning_rate": 3.6207830781818753e-06,
      "loss": 0.0014,
      "reward": 0.6434099301695824,
      "reward_std": 0.1766284443438053,
      "rewards/check_gptzero_func": 0.6434099301695824,
      "step": 149
    },
    {
      "completion_length": 196.88095474243164,
      "epoch": 0.4198740377886634,
      "grad_norm": 0.796875,
      "kl": 0.0113067626953125,
      "learning_rate": 3.5988590667807542e-06,
      "loss": 0.0011,
      "reward": 0.6718230247497559,
      "reward_std": 0.13120126724243164,
      "rewards/check_gptzero_func": 0.6718230247497559,
      "step": 150
    },
    {
      "completion_length": 205.48809814453125,
      "epoch": 0.42267319804058784,
      "grad_norm": 0.8359375,
      "kl": 0.0093536376953125,
      "learning_rate": 3.576829803899976e-06,
      "loss": 0.0009,
      "reward": 0.6097076088190079,
      "reward_std": 0.14795276708900928,
      "rewards/check_gptzero_func": 0.6097076088190079,
      "step": 151
    },
    {
      "completion_length": 171.79762649536133,
      "epoch": 0.42547235829251223,
      "grad_norm": 1.1484375,
      "kl": 0.014373779296875,
      "learning_rate": 3.554697399557634e-06,
      "loss": 0.0014,
      "reward": 0.6360819041728973,
      "reward_std": 0.16829469613730907,
      "rewards/check_gptzero_func": 0.6360819041728973,
      "step": 152
    },
    {
      "completion_length": 185.02381134033203,
      "epoch": 0.4282715185444367,
      "grad_norm": 0.90234375,
      "kl": 0.01239013671875,
      "learning_rate": 3.532463973650971e-06,
      "loss": 0.0012,
      "reward": 0.4822230823338032,
      "reward_std": 0.1834505433216691,
      "rewards/check_gptzero_func": 0.4822230823338032,
      "step": 153
    },
    {
      "completion_length": 194.2738151550293,
      "epoch": 0.4310706787963611,
      "grad_norm": 0.84375,
      "kl": 0.0112152099609375,
      "learning_rate": 3.5101316557533293e-06,
      "loss": 0.0011,
      "reward": 0.6571109592914581,
      "reward_std": 0.17676730267703533,
      "rewards/check_gptzero_func": 0.6571109592914581,
      "step": 154
    },
    {
      "completion_length": 185.50000381469727,
      "epoch": 0.4338698390482855,
      "grad_norm": 0.921875,
      "kl": 0.0124969482421875,
      "learning_rate": 3.487702584910172e-06,
      "loss": 0.0013,
      "reward": 0.6433713883161545,
      "reward_std": 0.18067739717662334,
      "rewards/check_gptzero_func": 0.6433713883161545,
      "step": 155
    },
    {
      "completion_length": 205.00000381469727,
      "epoch": 0.4366689993002099,
      "grad_norm": 0.859375,
      "kl": 0.00884246826171875,
      "learning_rate": 3.4651789094342043e-06,
      "loss": 0.0009,
      "reward": 0.7346427142620087,
      "reward_std": 0.15348245482891798,
      "rewards/check_gptzero_func": 0.7346427142620087,
      "step": 156
    },
    {
      "completion_length": 174.3690528869629,
      "epoch": 0.43946815955213436,
      "grad_norm": 1.0859375,
      "kl": 0.01556396484375,
      "learning_rate": 3.4425627866996003e-06,
      "loss": 0.0016,
      "reward": 0.6470814943313599,
      "reward_std": 0.15813233144581318,
      "rewards/check_gptzero_func": 0.6470814943313599,
      "step": 157
    },
    {
      "completion_length": 179.40476608276367,
      "epoch": 0.44226731980405876,
      "grad_norm": 0.89453125,
      "kl": 0.012420654296875,
      "learning_rate": 3.4198563829353624e-06,
      "loss": 0.0012,
      "reward": 0.6753295511007309,
      "reward_std": 0.19164511188864708,
      "rewards/check_gptzero_func": 0.6753295511007309,
      "step": 158
    },
    {
      "completion_length": 196.00000381469727,
      "epoch": 0.4450664800559832,
      "grad_norm": 0.83984375,
      "kl": 0.0102386474609375,
      "learning_rate": 3.39706187301784e-06,
      "loss": 0.001,
      "reward": 0.6890220493078232,
      "reward_std": 0.11566946748644114,
      "rewards/check_gptzero_func": 0.6890220493078232,
      "step": 159
    },
    {
      "completion_length": 176.21428680419922,
      "epoch": 0.44786564030790765,
      "grad_norm": 0.99609375,
      "kl": 0.0136871337890625,
      "learning_rate": 3.3741814402624094e-06,
      "loss": 0.0014,
      "reward": 0.5286017879843712,
      "reward_std": 0.22522129118442535,
      "rewards/check_gptzero_func": 0.5286017879843712,
      "step": 160
    },
    {
      "completion_length": 194.3571434020996,
      "epoch": 0.45066480055983205,
      "grad_norm": 0.81640625,
      "kl": 0.0122833251953125,
      "learning_rate": 3.351217276214351e-06,
      "loss": 0.0012,
      "reward": 0.4715605303645134,
      "reward_std": 0.18703988194465637,
      "rewards/check_gptzero_func": 0.4715605303645134,
      "step": 161
    },
    {
      "completion_length": 178.90476608276367,
      "epoch": 0.4534639608117565,
      "grad_norm": 1.0078125,
      "kl": 0.012786865234375,
      "learning_rate": 3.32817158043894e-06,
      "loss": 0.0013,
      "reward": 0.5694275945425034,
      "reward_std": 0.24036183580756187,
      "rewards/check_gptzero_func": 0.5694275945425034,
      "step": 162
    },
    {
      "completion_length": 183.09524536132812,
      "epoch": 0.4562631210636809,
      "grad_norm": 0.98046875,
      "kl": 0.0117034912109375,
      "learning_rate": 3.305046560310766e-06,
      "loss": 0.0012,
      "reward": 0.7210999131202698,
      "reward_std": 0.1915903128683567,
      "rewards/check_gptzero_func": 0.7210999131202698,
      "step": 163
    },
    {
      "completion_length": 207.96428680419922,
      "epoch": 0.45906228131560534,
      "grad_norm": 0.84375,
      "kl": 0.00853729248046875,
      "learning_rate": 3.2818444308023e-06,
      "loss": 0.0009,
      "reward": 0.5639151483774185,
      "reward_std": 0.18663722090423107,
      "rewards/check_gptzero_func": 0.5639151483774185,
      "step": 164
    },
    {
      "completion_length": 195.96429061889648,
      "epoch": 0.46186144156752973,
      "grad_norm": 1.078125,
      "kl": 0.0107574462890625,
      "learning_rate": 3.2585674142717483e-06,
      "loss": 0.0011,
      "reward": 0.6154336631298065,
      "reward_std": 0.19948378019034863,
      "rewards/check_gptzero_func": 0.6154336631298065,
      "step": 165
    },
    {
      "completion_length": 196.94047927856445,
      "epoch": 0.4646606018194542,
      "grad_norm": 0.86328125,
      "kl": 0.012969970703125,
      "learning_rate": 3.2352177402501813e-06,
      "loss": 0.0013,
      "reward": 0.5297554209828377,
      "reward_std": 0.16210689023137093,
      "rewards/check_gptzero_func": 0.5297554209828377,
      "step": 166
    },
    {
      "completion_length": 181.3333396911621,
      "epoch": 0.46745976207137857,
      "grad_norm": 0.9609375,
      "kl": 0.010589599609375,
      "learning_rate": 3.2117976452279854e-06,
      "loss": 0.0011,
      "reward": 0.6036887094378471,
      "reward_std": 0.21627848595380783,
      "rewards/check_gptzero_func": 0.6036887094378471,
      "step": 167
    },
    {
      "completion_length": 198.38095474243164,
      "epoch": 0.470258922323303,
      "grad_norm": 0.875,
      "kl": 0.0103607177734375,
      "learning_rate": 3.18830937244065e-06,
      "loss": 0.001,
      "reward": 0.6530143320560455,
      "reward_std": 0.18831264041364193,
      "rewards/check_gptzero_func": 0.6530143320560455,
      "step": 168
    },
    {
      "completion_length": 192.27381134033203,
      "epoch": 0.4730580825752274,
      "grad_norm": 0.86328125,
      "kl": 0.01263427734375,
      "learning_rate": 3.1647551716539004e-06,
      "loss": 0.0013,
      "reward": 0.6262907981872559,
      "reward_std": 0.11849029827862978,
      "rewards/check_gptzero_func": 0.6262907981872559,
      "step": 169
    },
    {
      "completion_length": 203.8333396911621,
      "epoch": 0.47585724282715186,
      "grad_norm": 0.76171875,
      "kl": 0.0087738037109375,
      "learning_rate": 3.1411372989482105e-06,
      "loss": 0.0009,
      "reward": 0.6544186323881149,
      "reward_std": 0.13314771838486195,
      "rewards/check_gptzero_func": 0.6544186323881149,
      "step": 170
    },
    {
      "completion_length": 172.25000381469727,
      "epoch": 0.47865640307907625,
      "grad_norm": 1.0390625,
      "kl": 0.01348876953125,
      "learning_rate": 3.1174580165027106e-06,
      "loss": 0.0014,
      "reward": 0.7334302663803101,
      "reward_std": 0.19380612671375275,
      "rewards/check_gptzero_func": 0.7334302663803101,
      "step": 171
    },
    {
      "completion_length": 185.2738151550293,
      "epoch": 0.4814555633310007,
      "grad_norm": 0.9453125,
      "kl": 0.0138092041015625,
      "learning_rate": 3.0937195923785124e-06,
      "loss": 0.0014,
      "reward": 0.6392181292176247,
      "reward_std": 0.20777087286114693,
      "rewards/check_gptzero_func": 0.6392181292176247,
      "step": 172
    },
    {
      "completion_length": 192.71429061889648,
      "epoch": 0.4842547235829251,
      "grad_norm": 0.9453125,
      "kl": 0.01061248779296875,
      "learning_rate": 3.069924300301463e-06,
      "loss": 0.0011,
      "reward": 0.6806470304727554,
      "reward_std": 0.21131999045610428,
      "rewards/check_gptzero_func": 0.6806470304727554,
      "step": 173
    },
    {
      "completion_length": 179.77380752563477,
      "epoch": 0.48705388383484954,
      "grad_norm": 0.83984375,
      "kl": 0.0126800537109375,
      "learning_rate": 3.0460744194443658e-06,
      "loss": 0.0013,
      "reward": 0.47618968039751053,
      "reward_std": 0.17172732576727867,
      "rewards/check_gptzero_func": 0.47618968039751053,
      "step": 174
    },
    {
      "completion_length": 181.53571701049805,
      "epoch": 0.489853044086774,
      "grad_norm": 0.94921875,
      "kl": 0.0154266357421875,
      "learning_rate": 3.0221722342086762e-06,
      "loss": 0.0015,
      "reward": 0.7085084468126297,
      "reward_std": 0.17813345789909363,
      "rewards/check_gptzero_func": 0.7085084468126297,
      "step": 175
    },
    {
      "completion_length": 196.54762268066406,
      "epoch": 0.4926522043386984,
      "grad_norm": 0.875,
      "kl": 0.00936126708984375,
      "learning_rate": 2.9982200340056916e-06,
      "loss": 0.0009,
      "reward": 0.6359190493822098,
      "reward_std": 0.16200686059892178,
      "rewards/check_gptzero_func": 0.6359190493822098,
      "step": 176
    },
    {
      "completion_length": 192.2857208251953,
      "epoch": 0.49545136459062283,
      "grad_norm": 0.83984375,
      "kl": 0.010528564453125,
      "learning_rate": 2.9742201130372693e-06,
      "loss": 0.0011,
      "reward": 0.6544022858142853,
      "reward_std": 0.20328444987535477,
      "rewards/check_gptzero_func": 0.6544022858142853,
      "step": 177
    },
    {
      "completion_length": 182.63095474243164,
      "epoch": 0.4982505248425472,
      "grad_norm": 0.86328125,
      "kl": 0.0142669677734375,
      "learning_rate": 2.9501747700760834e-06,
      "loss": 0.0014,
      "reward": 0.5758941918611526,
      "reward_std": 0.1651664450764656,
      "rewards/check_gptzero_func": 0.5758941918611526,
      "step": 178
    },
    {
      "completion_length": 192.67857360839844,
      "epoch": 0.5010496850944717,
      "grad_norm": 0.85546875,
      "kl": 0.01207733154296875,
      "learning_rate": 2.9260863082454377e-06,
      "loss": 0.0012,
      "reward": 0.7050619274377823,
      "reward_std": 0.18743818067014217,
      "rewards/check_gptzero_func": 0.7050619274377823,
      "step": 179
    },
    {
      "completion_length": 181.1547622680664,
      "epoch": 0.5038488453463961,
      "grad_norm": 0.89453125,
      "kl": 0.0139617919921875,
      "learning_rate": 2.901957034798671e-06,
      "loss": 0.0014,
      "reward": 0.6579191908240318,
      "reward_std": 0.23193923011422157,
      "rewards/check_gptzero_func": 0.6579191908240318,
      "step": 180
    },
    {
      "completion_length": 198.88095474243164,
      "epoch": 0.5066480055983205,
      "grad_norm": 0.87890625,
      "kl": 0.0117340087890625,
      "learning_rate": 2.8777892608981605e-06,
      "loss": 0.0012,
      "reward": 0.7810440808534622,
      "reward_std": 0.14343063719570637,
      "rewards/check_gptzero_func": 0.7810440808534622,
      "step": 181
    },
    {
      "completion_length": 183.89286041259766,
      "epoch": 0.509447165850245,
      "grad_norm": 0.83203125,
      "kl": 0.0113983154296875,
      "learning_rate": 2.853585301393954e-06,
      "loss": 0.0012,
      "reward": 0.5110857635736465,
      "reward_std": 0.17657889798283577,
      "rewards/check_gptzero_func": 0.5110857635736465,
      "step": 182
    },
    {
      "completion_length": 183.53571701049805,
      "epoch": 0.5122463261021694,
      "grad_norm": 1.046875,
      "kl": 0.0143585205078125,
      "learning_rate": 2.829347474602047e-06,
      "loss": 0.0014,
      "reward": 0.7601535469293594,
      "reward_std": 0.13078506011515856,
      "rewards/check_gptzero_func": 0.7601535469293594,
      "step": 183
    },
    {
      "completion_length": 191.05952835083008,
      "epoch": 0.5150454863540938,
      "grad_norm": 1.0390625,
      "kl": 0.01151275634765625,
      "learning_rate": 2.80507810208233e-06,
      "loss": 0.0012,
      "reward": 0.7207075506448746,
      "reward_std": 0.23219925537705421,
      "rewards/check_gptzero_func": 0.7207075506448746,
      "step": 184
    },
    {
      "completion_length": 174.4761962890625,
      "epoch": 0.5178446466060181,
      "grad_norm": 1.0,
      "kl": 0.0149383544921875,
      "learning_rate": 2.780779508416219e-06,
      "loss": 0.0015,
      "reward": 0.7076038122177124,
      "reward_std": 0.15643260441720486,
      "rewards/check_gptzero_func": 0.7076038122177124,
      "step": 185
    },
    {
      "completion_length": 186.65476608276367,
      "epoch": 0.5206438068579426,
      "grad_norm": 0.87890625,
      "kl": 0.0148773193359375,
      "learning_rate": 2.756454020984009e-06,
      "loss": 0.0015,
      "reward": 0.6423147022724152,
      "reward_std": 0.12505882722325623,
      "rewards/check_gptzero_func": 0.6423147022724152,
      "step": 186
    },
    {
      "completion_length": 197.96429061889648,
      "epoch": 0.523442967109867,
      "grad_norm": 0.84375,
      "kl": 0.010894775390625,
      "learning_rate": 2.7321039697419453e-06,
      "loss": 0.0011,
      "reward": 0.5366896614432335,
      "reward_std": 0.1639111079275608,
      "rewards/check_gptzero_func": 0.5366896614432335,
      "step": 187
    },
    {
      "completion_length": 180.73810195922852,
      "epoch": 0.5262421273617914,
      "grad_norm": 0.89453125,
      "kl": 0.0135650634765625,
      "learning_rate": 2.707731686999056e-06,
      "loss": 0.0014,
      "reward": 0.7638429999351501,
      "reward_std": 0.11215963400900364,
      "rewards/check_gptzero_func": 0.7638429999351501,
      "step": 188
    },
    {
      "completion_length": 177.96429061889648,
      "epoch": 0.5290412876137159,
      "grad_norm": 0.90625,
      "kl": 0.0150146484375,
      "learning_rate": 2.68333950719376e-06,
      "loss": 0.0015,
      "reward": 0.7288801521062851,
      "reward_std": 0.13601511158049107,
      "rewards/check_gptzero_func": 0.7288801521062851,
      "step": 189
    },
    {
      "completion_length": 197.54762268066406,
      "epoch": 0.5318404478656403,
      "grad_norm": 0.80859375,
      "kl": 0.0102691650390625,
      "learning_rate": 2.658929766670266e-06,
      "loss": 0.0011,
      "reward": 0.5935259684920311,
      "reward_std": 0.12766608223319054,
      "rewards/check_gptzero_func": 0.5935259684920311,
      "step": 190
    },
    {
      "completion_length": 189.6547622680664,
      "epoch": 0.5346396081175647,
      "grad_norm": 0.859375,
      "kl": 0.0122833251953125,
      "learning_rate": 2.63450480345479e-06,
      "loss": 0.0012,
      "reward": 0.7497572600841522,
      "reward_std": 0.13245987240225077,
      "rewards/check_gptzero_func": 0.7497572600841522,
      "step": 191
    },
    {
      "completion_length": 180.51190948486328,
      "epoch": 0.5374387683694891,
      "grad_norm": 0.91015625,
      "kl": 0.0144500732421875,
      "learning_rate": 2.6100669570316194e-06,
      "loss": 0.0014,
      "reward": 0.7178633213043213,
      "reward_std": 0.1744341142475605,
      "rewards/check_gptzero_func": 0.7178633213043213,
      "step": 192
    },
    {
      "completion_length": 195.26190567016602,
      "epoch": 0.5402379286214136,
      "grad_norm": 0.81640625,
      "kl": 0.012542724609375,
      "learning_rate": 2.585618568119027e-06,
      "loss": 0.0013,
      "reward": 0.6315608844161034,
      "reward_std": 0.14562865998595953,
      "rewards/check_gptzero_func": 0.6315608844161034,
      "step": 193
    },
    {
      "completion_length": 190.47619247436523,
      "epoch": 0.543037088873338,
      "grad_norm": 0.94140625,
      "kl": 0.0131378173828125,
      "learning_rate": 2.561161978445068e-06,
      "loss": 0.0013,
      "reward": 0.65364570915699,
      "reward_std": 0.14526648819446564,
      "rewards/check_gptzero_func": 0.65364570915699,
      "step": 194
    },
    {
      "completion_length": 160.94047927856445,
      "epoch": 0.5458362491252624,
      "grad_norm": 1.0234375,
      "kl": 0.020477294921875,
      "learning_rate": 2.536699530523292e-06,
      "loss": 0.0021,
      "reward": 0.7076306045055389,
      "reward_std": 0.15630067139863968,
      "rewards/check_gptzero_func": 0.7076306045055389,
      "step": 195
    },
    {
      "completion_length": 184.70238494873047,
      "epoch": 0.5486354093771868,
      "grad_norm": 0.94921875,
      "kl": 0.0129241943359375,
      "learning_rate": 2.5122335674283625e-06,
      "loss": 0.0013,
      "reward": 0.5801831930875778,
      "reward_std": 0.18576505780220032,
      "rewards/check_gptzero_func": 0.5801831930875778,
      "step": 196
    },
    {
      "completion_length": 186.60714721679688,
      "epoch": 0.5514345696291113,
      "grad_norm": 0.87890625,
      "kl": 0.0130615234375,
      "learning_rate": 2.4877664325716383e-06,
      "loss": 0.0013,
      "reward": 0.7721930146217346,
      "reward_std": 0.1962270326912403,
      "rewards/check_gptzero_func": 0.7721930146217346,
      "step": 197
    },
    {
      "completion_length": 182.42857360839844,
      "epoch": 0.5542337298810357,
      "grad_norm": 0.9765625,
      "kl": 0.01416015625,
      "learning_rate": 2.463300469476709e-06,
      "loss": 0.0014,
      "reward": 0.6073248982429504,
      "reward_std": 0.17869799211621284,
      "rewards/check_gptzero_func": 0.6073248982429504,
      "step": 198
    },
    {
      "completion_length": 178.32143020629883,
      "epoch": 0.5570328901329601,
      "grad_norm": 1.0546875,
      "kl": 0.01686859130859375,
      "learning_rate": 2.4388380215549332e-06,
      "loss": 0.0017,
      "reward": 0.670776292681694,
      "reward_std": 0.18726542592048645,
      "rewards/check_gptzero_func": 0.670776292681694,
      "step": 199
    },
    {
      "completion_length": 193.4047622680664,
      "epoch": 0.5598320503848845,
      "grad_norm": 0.8046875,
      "kl": 0.0124969482421875,
      "learning_rate": 2.414381431880974e-06,
      "loss": 0.0013,
      "reward": 0.5982818156480789,
      "reward_std": 0.16670218110084534,
      "rewards/check_gptzero_func": 0.5982818156480789,
      "step": 200
    },
    {
      "completion_length": 190.5833396911621,
      "epoch": 0.562631210636809,
      "grad_norm": 0.8046875,
      "kl": 0.0111846923828125,
      "learning_rate": 2.389933042968381e-06,
      "loss": 0.0011,
      "reward": 0.7207561880350113,
      "reward_std": 0.1551688564941287,
      "rewards/check_gptzero_func": 0.7207561880350113,
      "step": 201
    },
    {
      "completion_length": 183.8690528869629,
      "epoch": 0.5654303708887334,
      "grad_norm": 0.859375,
      "kl": 0.014251708984375,
      "learning_rate": 2.365495196545211e-06,
      "loss": 0.0014,
      "reward": 0.6653933525085449,
      "reward_std": 0.18065885081887245,
      "rewards/check_gptzero_func": 0.6653933525085449,
      "step": 202
    },
    {
      "completion_length": 191.30952835083008,
      "epoch": 0.5682295311406578,
      "grad_norm": 0.8828125,
      "kl": 0.0137786865234375,
      "learning_rate": 2.3410702333297358e-06,
      "loss": 0.0014,
      "reward": 0.7060705721378326,
      "reward_std": 0.14498403668403625,
      "rewards/check_gptzero_func": 0.7060705721378326,
      "step": 203
    },
    {
      "completion_length": 170.05952835083008,
      "epoch": 0.5710286913925823,
      "grad_norm": 0.88671875,
      "kl": 0.0150909423828125,
      "learning_rate": 2.3166604928062407e-06,
      "loss": 0.0015,
      "reward": 0.6380977034568787,
      "reward_std": 0.14762726612389088,
      "rewards/check_gptzero_func": 0.6380977034568787,
      "step": 204
    },
    {
      "completion_length": 187.05952835083008,
      "epoch": 0.5738278516445067,
      "grad_norm": 0.82421875,
      "kl": 0.0121002197265625,
      "learning_rate": 2.292268313000945e-06,
      "loss": 0.0012,
      "reward": 0.7264238968491554,
      "reward_std": 0.12679270654916763,
      "rewards/check_gptzero_func": 0.7264238968491554,
      "step": 205
    },
    {
      "completion_length": 183.28571701049805,
      "epoch": 0.5766270118964311,
      "grad_norm": 0.8828125,
      "kl": 0.0143280029296875,
      "learning_rate": 2.267896030258056e-06,
      "loss": 0.0014,
      "reward": 0.6818206459283829,
      "reward_std": 0.1636413224041462,
      "rewards/check_gptzero_func": 0.6818206459283829,
      "step": 206
    },
    {
      "completion_length": 177.84524154663086,
      "epoch": 0.5794261721483555,
      "grad_norm": 0.8984375,
      "kl": 0.0160980224609375,
      "learning_rate": 2.243545979015992e-06,
      "loss": 0.0016,
      "reward": 0.5764013379812241,
      "reward_std": 0.17973252199590206,
      "rewards/check_gptzero_func": 0.5764013379812241,
      "step": 207
    },
    {
      "completion_length": 189.97619247436523,
      "epoch": 0.58222533240028,
      "grad_norm": 0.7734375,
      "kl": 0.010650634765625,
      "learning_rate": 2.219220491583782e-06,
      "loss": 0.0011,
      "reward": 0.6200987994670868,
      "reward_std": 0.15654520690441132,
      "rewards/check_gptzero_func": 0.6200987994670868,
      "step": 208
    },
    {
      "completion_length": 174.96429061889648,
      "epoch": 0.5850244926522044,
      "grad_norm": 0.9609375,
      "kl": 0.0125885009765625,
      "learning_rate": 2.1949218979176718e-06,
      "loss": 0.0013,
      "reward": 0.7681840658187866,
      "reward_std": 0.17539203353226185,
      "rewards/check_gptzero_func": 0.7681840658187866,
      "step": 209
    },
    {
      "completion_length": 160.4047622680664,
      "epoch": 0.5878236529041287,
      "grad_norm": 1.0546875,
      "kl": 0.016204833984375,
      "learning_rate": 2.1706525253979533e-06,
      "loss": 0.0016,
      "reward": 0.6341628283262253,
      "reward_std": 0.17086376622319221,
      "rewards/check_gptzero_func": 0.6341628283262253,
      "step": 210
    },
    {
      "completion_length": 184.96429061889648,
      "epoch": 0.5906228131560531,
      "grad_norm": 1.1015625,
      "kl": 0.012847900390625,
      "learning_rate": 2.146414698606047e-06,
      "loss": 0.0013,
      "reward": 0.6099446341395378,
      "reward_std": 0.26053616404533386,
      "rewards/check_gptzero_func": 0.6099446341395378,
      "step": 211
    },
    {
      "completion_length": 173.38095474243164,
      "epoch": 0.5934219734079776,
      "grad_norm": 1.0234375,
      "kl": 0.0145111083984375,
      "learning_rate": 2.1222107391018403e-06,
      "loss": 0.0015,
      "reward": 0.6794377863407135,
      "reward_std": 0.1412256360054016,
      "rewards/check_gptzero_func": 0.6794377863407135,
      "step": 212
    },
    {
      "completion_length": 190.47619247436523,
      "epoch": 0.596221133659902,
      "grad_norm": 0.87890625,
      "kl": 0.013580322265625,
      "learning_rate": 2.09804296520133e-06,
      "loss": 0.0014,
      "reward": 0.5798576474189758,
      "reward_std": 0.1953704133629799,
      "rewards/check_gptzero_func": 0.5798576474189758,
      "step": 213
    },
    {
      "completion_length": 199.23809814453125,
      "epoch": 0.5990202939118264,
      "grad_norm": 0.890625,
      "kl": 0.010894775390625,
      "learning_rate": 2.0739136917545636e-06,
      "loss": 0.0011,
      "reward": 0.5883476734161377,
      "reward_std": 0.19741847924888134,
      "rewards/check_gptzero_func": 0.5883476734161377,
      "step": 214
    },
    {
      "completion_length": 194.63095474243164,
      "epoch": 0.6018194541637508,
      "grad_norm": 0.796875,
      "kl": 0.0112457275390625,
      "learning_rate": 2.0498252299239175e-06,
      "loss": 0.0011,
      "reward": 0.739928811788559,
      "reward_std": 0.17222343757748604,
      "rewards/check_gptzero_func": 0.739928811788559,
      "step": 215
    },
    {
      "completion_length": 181.78571701049805,
      "epoch": 0.6046186144156753,
      "grad_norm": 0.90234375,
      "kl": 0.0135040283203125,
      "learning_rate": 2.025779886962731e-06,
      "loss": 0.0014,
      "reward": 0.7212615758180618,
      "reward_std": 0.11260060407221317,
      "rewards/check_gptzero_func": 0.7212615758180618,
      "step": 216
    },
    {
      "completion_length": 202.21428680419922,
      "epoch": 0.6074177746675997,
      "grad_norm": 0.8671875,
      "kl": 0.0114288330078125,
      "learning_rate": 2.00177996599431e-06,
      "loss": 0.0012,
      "reward": 0.6235032379627228,
      "reward_std": 0.20338322408497334,
      "rewards/check_gptzero_func": 0.6235032379627228,
      "step": 217
    },
    {
      "completion_length": 164.75000381469727,
      "epoch": 0.6102169349195241,
      "grad_norm": 0.90625,
      "kl": 0.0148773193359375,
      "learning_rate": 1.9778277657913246e-06,
      "loss": 0.0015,
      "reward": 0.8035698980093002,
      "reward_std": 0.12413663975894451,
      "rewards/check_gptzero_func": 0.8035698980093002,
      "step": 218
    },
    {
      "completion_length": 180.75000381469727,
      "epoch": 0.6130160951714486,
      "grad_norm": 0.9296875,
      "kl": 0.01385498046875,
      "learning_rate": 1.9539255805556346e-06,
      "loss": 0.0014,
      "reward": 0.6889385357499123,
      "reward_std": 0.13095776550471783,
      "rewards/check_gptzero_func": 0.6889385357499123,
      "step": 219
    },
    {
      "completion_length": 193.34524536132812,
      "epoch": 0.615815255423373,
      "grad_norm": 0.9296875,
      "kl": 0.0128631591796875,
      "learning_rate": 1.9300756996985383e-06,
      "loss": 0.0013,
      "reward": 0.6453644558787346,
      "reward_std": 0.1899284292012453,
      "rewards/check_gptzero_func": 0.6453644558787346,
      "step": 220
    },
    {
      "completion_length": 187.0714340209961,
      "epoch": 0.6186144156752974,
      "grad_norm": 0.90625,
      "kl": 0.011749267578125,
      "learning_rate": 1.9062804076214889e-06,
      "loss": 0.0012,
      "reward": 0.8237078785896301,
      "reward_std": 0.10535579361021519,
      "rewards/check_gptzero_func": 0.8237078785896301,
      "step": 221
    },
    {
      "completion_length": 203.67856979370117,
      "epoch": 0.6214135759272218,
      "grad_norm": 0.890625,
      "kl": 0.00980377197265625,
      "learning_rate": 1.8825419834972902e-06,
      "loss": 0.001,
      "reward": 0.5983466356992722,
      "reward_std": 0.22100866585969925,
      "rewards/check_gptzero_func": 0.5983466356992722,
      "step": 222
    },
    {
      "completion_length": 173.16666793823242,
      "epoch": 0.6242127361791463,
      "grad_norm": 0.93359375,
      "kl": 0.0145721435546875,
      "learning_rate": 1.8588627010517912e-06,
      "loss": 0.0015,
      "reward": 0.6490365564823151,
      "reward_std": 0.215117909014225,
      "rewards/check_gptzero_func": 0.6490365564823151,
      "step": 223
    },
    {
      "completion_length": 188.9166717529297,
      "epoch": 0.6270118964310707,
      "grad_norm": 0.8515625,
      "kl": 0.01177978515625,
      "learning_rate": 1.835244828346101e-06,
      "loss": 0.0012,
      "reward": 0.6734350174665451,
      "reward_std": 0.17084914818406105,
      "rewards/check_gptzero_func": 0.6734350174665451,
      "step": 224
    },
    {
      "completion_length": 176.91666793823242,
      "epoch": 0.6298110566829951,
      "grad_norm": 1.078125,
      "kl": 0.0153656005859375,
      "learning_rate": 1.811690627559351e-06,
      "loss": 0.0015,
      "reward": 0.7332676947116852,
      "reward_std": 0.2090182527899742,
      "rewards/check_gptzero_func": 0.7332676947116852,
      "step": 225
    },
    {
      "completion_length": 201.5357208251953,
      "epoch": 0.6326102169349195,
      "grad_norm": 0.78125,
      "kl": 0.0106964111328125,
      "learning_rate": 1.7882023547720156e-06,
      "loss": 0.0011,
      "reward": 0.5684466883540154,
      "reward_std": 0.19617649912834167,
      "rewards/check_gptzero_func": 0.5684466883540154,
      "step": 226
    },
    {
      "completion_length": 193.35714721679688,
      "epoch": 0.635409377186844,
      "grad_norm": 0.80078125,
      "kl": 0.01116943359375,
      "learning_rate": 1.7647822597498204e-06,
      "loss": 0.0011,
      "reward": 0.6939697265625,
      "reward_std": 0.08986328635364771,
      "rewards/check_gptzero_func": 0.6939697265625,
      "step": 227
    },
    {
      "completion_length": 169.85714721679688,
      "epoch": 0.6382085374387684,
      "grad_norm": 1.0078125,
      "kl": 0.0150146484375,
      "learning_rate": 1.7414325857282528e-06,
      "loss": 0.0015,
      "reward": 0.6364180445671082,
      "reward_std": 0.211682990193367,
      "rewards/check_gptzero_func": 0.6364180445671082,
      "step": 228
    },
    {
      "completion_length": 206.7023811340332,
      "epoch": 0.6410076976906928,
      "grad_norm": 0.79296875,
      "kl": 0.0116424560546875,
      "learning_rate": 1.718155569197701e-06,
      "loss": 0.0012,
      "reward": 0.6597686931490898,
      "reward_std": 0.14480283856391907,
      "rewards/check_gptzero_func": 0.6597686931490898,
      "step": 229
    },
    {
      "completion_length": 196.5238151550293,
      "epoch": 0.6438068579426172,
      "grad_norm": 0.91796875,
      "kl": 0.01229095458984375,
      "learning_rate": 1.6949534396892358e-06,
      "loss": 0.0013,
      "reward": 0.7675946801900864,
      "reward_std": 0.08783328998833895,
      "rewards/check_gptzero_func": 0.7675946801900864,
      "step": 230
    },
    {
      "completion_length": 185.5238151550293,
      "epoch": 0.6466060181945417,
      "grad_norm": 0.88671875,
      "kl": 0.0150909423828125,
      "learning_rate": 1.6718284195610607e-06,
      "loss": 0.0015,
      "reward": 0.5960735529661179,
      "reward_std": 0.17222833260893822,
      "rewards/check_gptzero_func": 0.5960735529661179,
      "step": 231
    },
    {
      "completion_length": 202.67857360839844,
      "epoch": 0.6494051784464661,
      "grad_norm": 0.859375,
      "kl": 0.0126190185546875,
      "learning_rate": 1.6487827237856503e-06,
      "loss": 0.0013,
      "reward": 0.6651804447174072,
      "reward_std": 0.19576009269803762,
      "rewards/check_gptzero_func": 0.6651804447174072,
      "step": 232
    },
    {
      "completion_length": 193.60714721679688,
      "epoch": 0.6522043386983905,
      "grad_norm": 0.83984375,
      "kl": 0.00897216796875,
      "learning_rate": 1.6258185597375919e-06,
      "loss": 0.0009,
      "reward": 0.6716840863227844,
      "reward_std": 0.14614208973944187,
      "rewards/check_gptzero_func": 0.6716840863227844,
      "step": 233
    },
    {
      "completion_length": 178.55952835083008,
      "epoch": 0.655003498950315,
      "grad_norm": 0.9921875,
      "kl": 0.0128173828125,
      "learning_rate": 1.6029381269821607e-06,
      "loss": 0.0013,
      "reward": 0.8011642247438431,
      "reward_std": 0.17047418653964996,
      "rewards/check_gptzero_func": 0.8011642247438431,
      "step": 234
    },
    {
      "completion_length": 184.25000381469727,
      "epoch": 0.6578026592022393,
      "grad_norm": 0.9375,
      "kl": 0.0157012939453125,
      "learning_rate": 1.5801436170646386e-06,
      "loss": 0.0016,
      "reward": 0.7015040963888168,
      "reward_std": 0.12212707288563251,
      "rewards/check_gptzero_func": 0.7015040963888168,
      "step": 235
    },
    {
      "completion_length": 184.33333587646484,
      "epoch": 0.6606018194541637,
      "grad_norm": 0.89453125,
      "kl": 0.01324462890625,
      "learning_rate": 1.5574372133004012e-06,
      "loss": 0.0014,
      "reward": 0.8126765042543411,
      "reward_std": 0.1537869544699788,
      "rewards/check_gptzero_func": 0.8126765042543411,
      "step": 236
    },
    {
      "completion_length": 203.8095245361328,
      "epoch": 0.6634009797060881,
      "grad_norm": 0.87890625,
      "kl": 0.0106201171875,
      "learning_rate": 1.5348210905657962e-06,
      "loss": 0.0011,
      "reward": 0.7201628535985947,
      "reward_std": 0.164525730535388,
      "rewards/check_gptzero_func": 0.7201628535985947,
      "step": 237
    },
    {
      "completion_length": 182.16666793823242,
      "epoch": 0.6662001399580126,
      "grad_norm": 0.96875,
      "kl": 0.01495361328125,
      "learning_rate": 1.512297415089829e-06,
      "loss": 0.0015,
      "reward": 0.7377509474754333,
      "reward_std": 0.1474976148456335,
      "rewards/check_gptzero_func": 0.7377509474754333,
      "step": 238
    },
    {
      "completion_length": 171.9166717529297,
      "epoch": 0.668999300209937,
      "grad_norm": 0.91796875,
      "kl": 0.0146942138671875,
      "learning_rate": 1.4898683442466715e-06,
      "loss": 0.0015,
      "reward": 0.6876519098877907,
      "reward_std": 0.17211773619055748,
      "rewards/check_gptzero_func": 0.6876519098877907,
      "step": 239
    },
    {
      "completion_length": 200.85714721679688,
      "epoch": 0.6717984604618614,
      "grad_norm": 0.8671875,
      "kl": 0.010711669921875,
      "learning_rate": 1.4675360263490296e-06,
      "loss": 0.0011,
      "reward": 0.6152354925870895,
      "reward_std": 0.16585622262209654,
      "rewards/check_gptzero_func": 0.6152354925870895,
      "step": 240
    },
    {
      "completion_length": 188.75000381469727,
      "epoch": 0.6745976207137858,
      "grad_norm": 0.86328125,
      "kl": 0.0137176513671875,
      "learning_rate": 1.4453026004423664e-06,
      "loss": 0.0014,
      "reward": 0.6593173295259476,
      "reward_std": 0.1960100382566452,
      "rewards/check_gptzero_func": 0.6593173295259476,
      "step": 241
    },
    {
      "completion_length": 188.8214340209961,
      "epoch": 0.6773967809657103,
      "grad_norm": 0.80078125,
      "kl": 0.0121612548828125,
      "learning_rate": 1.4231701961000256e-06,
      "loss": 0.0012,
      "reward": 0.7077113464474678,
      "reward_std": 0.08986913226544857,
      "rewards/check_gptzero_func": 0.7077113464474678,
      "step": 242
    },
    {
      "completion_length": 192.89286041259766,
      "epoch": 0.6801959412176347,
      "grad_norm": 0.79296875,
      "kl": 0.01239013671875,
      "learning_rate": 1.4011409332192472e-06,
      "loss": 0.0012,
      "reward": 0.7247354537248611,
      "reward_std": 0.16528335958719254,
      "rewards/check_gptzero_func": 0.7247354537248611,
      "step": 243
    },
    {
      "completion_length": 197.1190528869629,
      "epoch": 0.6829951014695591,
      "grad_norm": 0.82421875,
      "kl": 0.01019287109375,
      "learning_rate": 1.379216921818126e-06,
      "loss": 0.001,
      "reward": 0.6609435975551605,
      "reward_std": 0.20204732194542885,
      "rewards/check_gptzero_func": 0.6609435975551605,
      "step": 244
    },
    {
      "completion_length": 184.35714721679688,
      "epoch": 0.6857942617214835,
      "grad_norm": 1.015625,
      "kl": 0.0119171142578125,
      "learning_rate": 1.3574002618335055e-06,
      "loss": 0.0012,
      "reward": 0.6553308963775635,
      "reward_std": 0.18806752562522888,
      "rewards/check_gptzero_func": 0.6553308963775635,
      "step": 245
    },
    {
      "completion_length": 189.16666793823242,
      "epoch": 0.688593421973408,
      "grad_norm": 0.859375,
      "kl": 0.01226043701171875,
      "learning_rate": 1.335693042919841e-06,
      "loss": 0.0012,
      "reward": 0.6279339641332626,
      "reward_std": 0.1844564937055111,
      "rewards/check_gptzero_func": 0.6279339641332626,
      "step": 246
    },
    {
      "completion_length": 192.04762268066406,
      "epoch": 0.6913925822253324,
      "grad_norm": 0.8359375,
      "kl": 0.01172637939453125,
      "learning_rate": 1.314097344249048e-06,
      "loss": 0.0012,
      "reward": 0.6242645084857941,
      "reward_std": 0.1471152976155281,
      "rewards/check_gptzero_func": 0.6242645084857941,
      "step": 247
    },
    {
      "completion_length": 191.33333587646484,
      "epoch": 0.6941917424772568,
      "grad_norm": 0.90234375,
      "kl": 0.0138397216796875,
      "learning_rate": 1.2926152343113525e-06,
      "loss": 0.0014,
      "reward": 0.5745993703603745,
      "reward_std": 0.15316335577517748,
      "rewards/check_gptzero_func": 0.5745993703603745,
      "step": 248
    },
    {
      "completion_length": 210.39286041259766,
      "epoch": 0.6969909027291813,
      "grad_norm": 0.8203125,
      "kl": 0.00994873046875,
      "learning_rate": 1.2712487707171645e-06,
      "loss": 0.001,
      "reward": 0.7345138937234879,
      "reward_std": 0.1424336303025484,
      "rewards/check_gptzero_func": 0.7345138937234879,
      "step": 249
    },
    {
      "completion_length": 191.95238494873047,
      "epoch": 0.6997900629811057,
      "grad_norm": 0.88671875,
      "kl": 0.0122833251953125,
      "learning_rate": 1.2500000000000007e-06,
      "loss": 0.0012,
      "reward": 0.755773201584816,
      "reward_std": 0.14831538125872612,
      "rewards/check_gptzero_func": 0.755773201584816,
      "step": 250
    },
    {
      "completion_length": 175.86904907226562,
      "epoch": 0.7025892232330301,
      "grad_norm": 1.09375,
      "kl": 0.01434326171875,
      "learning_rate": 1.2288709574204561e-06,
      "loss": 0.0014,
      "reward": 0.635523222386837,
      "reward_std": 0.21710951253771782,
      "rewards/check_gptzero_func": 0.635523222386837,
      "step": 251
    },
    {
      "completion_length": 191.80952835083008,
      "epoch": 0.7053883834849545,
      "grad_norm": 0.94140625,
      "kl": 0.013092041015625,
      "learning_rate": 1.2078636667712648e-06,
      "loss": 0.0013,
      "reward": 0.6860392540693283,
      "reward_std": 0.16151536628603935,
      "rewards/check_gptzero_func": 0.6860392540693283,
      "step": 252
    },
    {
      "completion_length": 211.09524536132812,
      "epoch": 0.708187543736879,
      "grad_norm": 0.80078125,
      "kl": 0.0114593505859375,
      "learning_rate": 1.1869801401834563e-06,
      "loss": 0.0012,
      "reward": 0.5822405442595482,
      "reward_std": 0.1631794534623623,
      "rewards/check_gptzero_func": 0.5822405442595482,
      "step": 253
    },
    {
      "completion_length": 198.07143020629883,
      "epoch": 0.7109867039888034,
      "grad_norm": 0.92578125,
      "kl": 0.0108795166015625,
      "learning_rate": 1.1662223779336272e-06,
      "loss": 0.0011,
      "reward": 0.6223282963037491,
      "reward_std": 0.23277926445007324,
      "rewards/check_gptzero_func": 0.6223282963037491,
      "step": 254
    },
    {
      "completion_length": 170.01190567016602,
      "epoch": 0.7137858642407278,
      "grad_norm": 0.796875,
      "kl": 0.0137481689453125,
      "learning_rate": 1.1455923682523476e-06,
      "loss": 0.0014,
      "reward": 0.7666629701852798,
      "reward_std": 0.12203127704560757,
      "rewards/check_gptzero_func": 0.7666629701852798,
      "step": 255
    },
    {
      "completion_length": 182.51190948486328,
      "epoch": 0.7165850244926522,
      "grad_norm": 0.9296875,
      "kl": 0.0144500732421875,
      "learning_rate": 1.1250920871337296e-06,
      "loss": 0.0014,
      "reward": 0.5818550065159798,
      "reward_std": 0.21111036837100983,
      "rewards/check_gptzero_func": 0.5818550065159798,
      "step": 256
    },
    {
      "completion_length": 178.8690528869629,
      "epoch": 0.7193841847445767,
      "grad_norm": 0.81640625,
      "kl": 0.013885498046875,
      "learning_rate": 1.104723498146156e-06,
      "loss": 0.0014,
      "reward": 0.5987424030900002,
      "reward_std": 0.21208756789565086,
      "rewards/check_gptzero_func": 0.5987424030900002,
      "step": 257
    },
    {
      "completion_length": 173.29762268066406,
      "epoch": 0.722183344996501,
      "grad_norm": 0.83984375,
      "kl": 0.0154876708984375,
      "learning_rate": 1.0844885522442076e-06,
      "loss": 0.0016,
      "reward": 0.7769442051649094,
      "reward_std": 0.09991182293742895,
      "rewards/check_gptzero_func": 0.7769442051649094,
      "step": 258
    },
    {
      "completion_length": 194.32143020629883,
      "epoch": 0.7249825052484254,
      "grad_norm": 0.8046875,
      "kl": 0.0103759765625,
      "learning_rate": 1.064389187581794e-06,
      "loss": 0.001,
      "reward": 0.6640415489673615,
      "reward_std": 0.09457994624972343,
      "rewards/check_gptzero_func": 0.6640415489673615,
      "step": 259
    },
    {
      "completion_length": 191.02381134033203,
      "epoch": 0.72778166550035,
      "grad_norm": 0.859375,
      "kl": 0.012786865234375,
      "learning_rate": 1.044427329326515e-06,
      "loss": 0.0013,
      "reward": 0.6643179804086685,
      "reward_std": 0.1974339596927166,
      "rewards/check_gptzero_func": 0.6643179804086685,
      "step": 260
    },
    {
      "completion_length": 182.0238151550293,
      "epoch": 0.7305808257522743,
      "grad_norm": 0.984375,
      "kl": 0.0133209228515625,
      "learning_rate": 1.024604889475259e-06,
      "loss": 0.0013,
      "reward": 0.7576928585767746,
      "reward_std": 0.17764172703027725,
      "rewards/check_gptzero_func": 0.7576928585767746,
      "step": 261
    },
    {
      "completion_length": 197.76190567016602,
      "epoch": 0.7333799860041987,
      "grad_norm": 0.79296875,
      "kl": 0.011962890625,
      "learning_rate": 1.0049237666710713e-06,
      "loss": 0.0012,
      "reward": 0.6300367414951324,
      "reward_std": 0.1478472277522087,
      "rewards/check_gptzero_func": 0.6300367414951324,
      "step": 262
    },
    {
      "completion_length": 203.90476608276367,
      "epoch": 0.7361791462561231,
      "grad_norm": 0.7734375,
      "kl": 0.00923919677734375,
      "learning_rate": 9.853858460212961e-07,
      "loss": 0.0009,
      "reward": 0.7148824632167816,
      "reward_std": 0.13644199073314667,
      "rewards/check_gptzero_func": 0.7148824632167816,
      "step": 263
    },
    {
      "completion_length": 161.45238494873047,
      "epoch": 0.7389783065080476,
      "grad_norm": 0.9453125,
      "kl": 0.0169677734375,
      "learning_rate": 9.659929989170156e-07,
      "loss": 0.0017,
      "reward": 0.6777283996343613,
      "reward_std": 0.1693093739449978,
      "rewards/check_gptzero_func": 0.6777283996343613,
      "step": 264
    },
    {
      "completion_length": 187.28571701049805,
      "epoch": 0.741777466759972,
      "grad_norm": 0.86328125,
      "kl": 0.01239776611328125,
      "learning_rate": 9.467470828538028e-07,
      "loss": 0.0012,
      "reward": 0.6955645084381104,
      "reward_std": 0.11928121093660593,
      "rewards/check_gptzero_func": 0.6955645084381104,
      "step": 265
    },
    {
      "completion_length": 199.65476608276367,
      "epoch": 0.7445766270118964,
      "grad_norm": 0.81640625,
      "kl": 0.0113372802734375,
      "learning_rate": 9.276499412538082e-07,
      "loss": 0.0011,
      "reward": 0.6984945237636566,
      "reward_std": 0.12425749842077494,
      "rewards/check_gptzero_func": 0.6984945237636566,
      "step": 266
    },
    {
      "completion_length": 191.65476989746094,
      "epoch": 0.7473757872638208,
      "grad_norm": 0.9375,
      "kl": 0.0126953125,
      "learning_rate": 9.087034032891884e-07,
      "loss": 0.0013,
      "reward": 0.5988369584083557,
      "reward_std": 0.22750091180205345,
      "rewards/check_gptzero_func": 0.5988369584083557,
      "step": 267
    },
    {
      "completion_length": 190.25000381469727,
      "epoch": 0.7501749475157453,
      "grad_norm": 0.90625,
      "kl": 0.0141143798828125,
      "learning_rate": 8.899092837069081e-07,
      "loss": 0.0014,
      "reward": 0.7432132065296173,
      "reward_std": 0.1290474236011505,
      "rewards/check_gptzero_func": 0.7432132065296173,
      "step": 268
    },
    {
      "completion_length": 177.40476989746094,
      "epoch": 0.7529741077676697,
      "grad_norm": 0.875,
      "kl": 0.013031005859375,
      "learning_rate": 8.71269382654916e-07,
      "loss": 0.0013,
      "reward": 0.6381399929523468,
      "reward_std": 0.13523080106824636,
      "rewards/check_gptzero_func": 0.6381399929523468,
      "step": 269
    },
    {
      "completion_length": 182.97619247436523,
      "epoch": 0.7557732680195941,
      "grad_norm": 0.984375,
      "kl": 0.01318359375,
      "learning_rate": 8.527854855097226e-07,
      "loss": 0.0013,
      "reward": 0.6455244570970535,
      "reward_std": 0.142228739336133,
      "rewards/check_gptzero_func": 0.6455244570970535,
      "step": 270
    },
    {
      "completion_length": 179.0,
      "epoch": 0.7585724282715185,
      "grad_norm": 0.8515625,
      "kl": 0.01285552978515625,
      "learning_rate": 8.344593627053926e-07,
      "loss": 0.0013,
      "reward": 0.6351892277598381,
      "reward_std": 0.16661302000284195,
      "rewards/check_gptzero_func": 0.6351892277598381,
      "step": 271
    },
    {
      "completion_length": 203.76190948486328,
      "epoch": 0.761371588523443,
      "grad_norm": 0.79296875,
      "kl": 0.01068878173828125,
      "learning_rate": 8.162927695639699e-07,
      "loss": 0.0011,
      "reward": 0.6384782642126083,
      "reward_std": 0.17978323996067047,
      "rewards/check_gptzero_func": 0.6384782642126083,
      "step": 272
    },
    {
      "completion_length": 189.80952835083008,
      "epoch": 0.7641707487753674,
      "grad_norm": 0.9921875,
      "kl": 0.0136566162109375,
      "learning_rate": 7.982874461273438e-07,
      "loss": 0.0014,
      "reward": 0.5513089373707771,
      "reward_std": 0.21978427842259407,
      "rewards/check_gptzero_func": 0.5513089373707771,
      "step": 273
    },
    {
      "completion_length": 182.42857360839844,
      "epoch": 0.7669699090272918,
      "grad_norm": 1.015625,
      "kl": 0.0137786865234375,
      "learning_rate": 7.804451169905882e-07,
      "loss": 0.0014,
      "reward": 0.6128961741924286,
      "reward_std": 0.1331999460235238,
      "rewards/check_gptzero_func": 0.6128961741924286,
      "step": 274
    },
    {
      "completion_length": 185.23809814453125,
      "epoch": 0.7697690692792163,
      "grad_norm": 0.94921875,
      "kl": 0.0132598876953125,
      "learning_rate": 7.627674911367747e-07,
      "loss": 0.0013,
      "reward": 0.686809316277504,
      "reward_std": 0.1671704165637493,
      "rewards/check_gptzero_func": 0.686809316277504,
      "step": 275
    },
    {
      "completion_length": 184.73810195922852,
      "epoch": 0.7725682295311407,
      "grad_norm": 0.96875,
      "kl": 0.0143890380859375,
      "learning_rate": 7.452562617732795e-07,
      "loss": 0.0014,
      "reward": 0.6087932512164116,
      "reward_std": 0.18696350045502186,
      "rewards/check_gptzero_func": 0.6087932512164116,
      "step": 276
    },
    {
      "completion_length": 186.3928565979004,
      "epoch": 0.7753673897830651,
      "grad_norm": 0.9140625,
      "kl": 0.01251220703125,
      "learning_rate": 7.279131061696062e-07,
      "loss": 0.0013,
      "reward": 0.6093617677688599,
      "reward_std": 0.16512912511825562,
      "rewards/check_gptzero_func": 0.6093617677688599,
      "step": 277
    },
    {
      "completion_length": 194.29762649536133,
      "epoch": 0.7781665500349895,
      "grad_norm": 0.84375,
      "kl": 0.012054443359375,
      "learning_rate": 7.107396854967322e-07,
      "loss": 0.0013,
      "reward": 0.6530048102140427,
      "reward_std": 0.1365496888756752,
      "rewards/check_gptzero_func": 0.6530048102140427,
      "step": 278
    },
    {
      "completion_length": 185.23809814453125,
      "epoch": 0.780965710286914,
      "grad_norm": 0.8984375,
      "kl": 0.0136260986328125,
      "learning_rate": 6.93737644667995e-07,
      "loss": 0.0014,
      "reward": 0.5730803310871124,
      "reward_std": 0.23035263270139694,
      "rewards/check_gptzero_func": 0.5730803310871124,
      "step": 279
    },
    {
      "completion_length": 196.7738151550293,
      "epoch": 0.7837648705388384,
      "grad_norm": 0.8984375,
      "kl": 0.01300048828125,
      "learning_rate": 6.769086121815424e-07,
      "loss": 0.0013,
      "reward": 0.7231508791446686,
      "reward_std": 0.1479925811290741,
      "rewards/check_gptzero_func": 0.7231508791446686,
      "step": 280
    },
    {
      "completion_length": 173.71428680419922,
      "epoch": 0.7865640307907628,
      "grad_norm": 0.890625,
      "kl": 0.0151519775390625,
      "learning_rate": 6.602541999643486e-07,
      "loss": 0.0015,
      "reward": 0.714839443564415,
      "reward_std": 0.18807288724929094,
      "rewards/check_gptzero_func": 0.714839443564415,
      "step": 281
    },
    {
      "completion_length": 181.16666793823242,
      "epoch": 0.7893631910426872,
      "grad_norm": 0.890625,
      "kl": 0.0139617919921875,
      "learning_rate": 6.4377600321782e-07,
      "loss": 0.0014,
      "reward": 0.6251032203435898,
      "reward_std": 0.18542934395372868,
      "rewards/check_gptzero_func": 0.6251032203435898,
      "step": 282
    },
    {
      "completion_length": 183.8571434020996,
      "epoch": 0.7921623512946117,
      "grad_norm": 0.765625,
      "kl": 0.0149688720703125,
      "learning_rate": 6.274756002650034e-07,
      "loss": 0.0015,
      "reward": 0.6130138486623764,
      "reward_std": 0.12219419237226248,
      "rewards/check_gptzero_func": 0.6130138486623764,
      "step": 283
    },
    {
      "completion_length": 191.50000381469727,
      "epoch": 0.794961511546536,
      "grad_norm": 0.86328125,
      "kl": 0.014312744140625,
      "learning_rate": 6.11354552399408e-07,
      "loss": 0.0014,
      "reward": 0.5668933913111687,
      "reward_std": 0.19107018411159515,
      "rewards/check_gptzero_func": 0.5668933913111687,
      "step": 284
    },
    {
      "completion_length": 200.03571701049805,
      "epoch": 0.7977606717984604,
      "grad_norm": 0.875,
      "kl": 0.012359619140625,
      "learning_rate": 5.954144037354645e-07,
      "loss": 0.0012,
      "reward": 0.6846682727336884,
      "reward_std": 0.1509340275079012,
      "rewards/check_gptzero_func": 0.6846682727336884,
      "step": 285
    },
    {
      "completion_length": 189.97619247436523,
      "epoch": 0.8005598320503848,
      "grad_norm": 0.93359375,
      "kl": 0.014251708984375,
      "learning_rate": 5.796566810606227e-07,
      "loss": 0.0014,
      "reward": 0.6802646964788437,
      "reward_std": 0.17098304629325867,
      "rewards/check_gptzero_func": 0.6802646964788437,
      "step": 286
    },
    {
      "completion_length": 178.20238876342773,
      "epoch": 0.8033589923023093,
      "grad_norm": 0.91796875,
      "kl": 0.0152130126953125,
      "learning_rate": 5.640828936891144e-07,
      "loss": 0.0015,
      "reward": 0.5891979560256004,
      "reward_std": 0.18455617874860764,
      "rewards/check_gptzero_func": 0.5891979560256004,
      "step": 287
    },
    {
      "completion_length": 169.11904907226562,
      "epoch": 0.8061581525542337,
      "grad_norm": 1.0546875,
      "kl": 0.0149993896484375,
      "learning_rate": 5.486945333173852e-07,
      "loss": 0.0015,
      "reward": 0.6522376388311386,
      "reward_std": 0.16162380203604698,
      "rewards/check_gptzero_func": 0.6522376388311386,
      "step": 288
    },
    {
      "completion_length": 190.00000381469727,
      "epoch": 0.8089573128061581,
      "grad_norm": 0.9140625,
      "kl": 0.010894775390625,
      "learning_rate": 5.334930738812188e-07,
      "loss": 0.0011,
      "reward": 0.6731359958648682,
      "reward_std": 0.14657550491392612,
      "rewards/check_gptzero_func": 0.6731359958648682,
      "step": 289
    },
    {
      "completion_length": 187.7976188659668,
      "epoch": 0.8117564730580826,
      "grad_norm": 1.109375,
      "kl": 0.013214111328125,
      "learning_rate": 5.184799714145558e-07,
      "loss": 0.0013,
      "reward": 0.6758114099502563,
      "reward_std": 0.1736396849155426,
      "rewards/check_gptzero_func": 0.6758114099502563,
      "step": 290
    },
    {
      "completion_length": 200.3690528869629,
      "epoch": 0.814555633310007,
      "grad_norm": 0.85546875,
      "kl": 0.011383056640625,
      "learning_rate": 5.036566639100351e-07,
      "loss": 0.0011,
      "reward": 0.7276384383440018,
      "reward_std": 0.12691646441817284,
      "rewards/check_gptzero_func": 0.7276384383440018,
      "step": 291
    },
    {
      "completion_length": 169.78571319580078,
      "epoch": 0.8173547935619314,
      "grad_norm": 1.0234375,
      "kl": 0.0178375244140625,
      "learning_rate": 4.890245711812577e-07,
      "loss": 0.0018,
      "reward": 0.746677041053772,
      "reward_std": 0.22585053741931915,
      "rewards/check_gptzero_func": 0.746677041053772,
      "step": 292
    },
    {
      "completion_length": 187.03571319580078,
      "epoch": 0.8201539538138558,
      "grad_norm": 0.88671875,
      "kl": 0.01416015625,
      "learning_rate": 4.74585094726793e-07,
      "loss": 0.0014,
      "reward": 0.7156971842050552,
      "reward_std": 0.18219392374157906,
      "rewards/check_gptzero_func": 0.7156971842050552,
      "step": 293
    },
    {
      "completion_length": 176.9523811340332,
      "epoch": 0.8229531140657803,
      "grad_norm": 0.96875,
      "kl": 0.0149993896484375,
      "learning_rate": 4.6033961759594045e-07,
      "loss": 0.0015,
      "reward": 0.6982993930578232,
      "reward_std": 0.18162141740322113,
      "rewards/check_gptzero_func": 0.6982993930578232,
      "step": 294
    },
    {
      "completion_length": 175.6666717529297,
      "epoch": 0.8257522743177047,
      "grad_norm": 0.92578125,
      "kl": 0.01531982421875,
      "learning_rate": 4.462895042562576e-07,
      "loss": 0.0015,
      "reward": 0.7019955068826675,
      "reward_std": 0.16880467906594276,
      "rewards/check_gptzero_func": 0.7019955068826675,
      "step": 295
    },
    {
      "completion_length": 173.41666793823242,
      "epoch": 0.8285514345696291,
      "grad_norm": 1.1484375,
      "kl": 0.0169219970703125,
      "learning_rate": 4.324361004628658e-07,
      "loss": 0.0017,
      "reward": 0.6873890459537506,
      "reward_std": 0.1467819530516863,
      "rewards/check_gptzero_func": 0.6873890459537506,
      "step": 296
    },
    {
      "completion_length": 188.85714721679688,
      "epoch": 0.8313505948215535,
      "grad_norm": 0.93359375,
      "kl": 0.0130767822265625,
      "learning_rate": 4.1878073312955486e-07,
      "loss": 0.0013,
      "reward": 0.6262213513255119,
      "reward_std": 0.15299665369093418,
      "rewards/check_gptzero_func": 0.6262213513255119,
      "step": 297
    },
    {
      "completion_length": 201.33333587646484,
      "epoch": 0.834149755073478,
      "grad_norm": 0.87890625,
      "kl": 0.01001739501953125,
      "learning_rate": 4.0532471020168386e-07,
      "loss": 0.001,
      "reward": 0.708094909787178,
      "reward_std": 0.15163133665919304,
      "rewards/check_gptzero_func": 0.708094909787178,
      "step": 298
    },
    {
      "completion_length": 192.10714721679688,
      "epoch": 0.8369489153254024,
      "grad_norm": 0.9921875,
      "kl": 0.0134735107421875,
      "learning_rate": 3.920693205309048e-07,
      "loss": 0.0013,
      "reward": 0.5948657244443893,
      "reward_std": 0.20524189993739128,
      "rewards/check_gptzero_func": 0.5948657244443893,
      "step": 299
    },
    {
      "completion_length": 196.40476608276367,
      "epoch": 0.8397480755773268,
      "grad_norm": 0.86328125,
      "kl": 0.015106201171875,
      "learning_rate": 3.7901583375171277e-07,
      "loss": 0.0015,
      "reward": 0.6475347355008125,
      "reward_std": 0.13522333092987537,
      "rewards/check_gptzero_func": 0.6475347355008125,
      "step": 300
    }
  ],
  "logging_steps": 1,
  "max_steps": 357,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}