{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.9402985074626864,
  "eval_steps": 500,
  "global_step": 132,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 1.230027198791504,
      "Normal prob": -1.230027198791504,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0,
      "step": 0
    },
    {
      "DPO Loss": 0.34657145664029176,
      "Negative Geometric Mean": -0.9493766827771892,
      "Negative prob": -0.9493766827771892,
      "Normal Loss": 1.0090343952178955,
      "Normal prob": -1.0090343952178955,
      "Positive Loss": 0.37890636920928955,
      "Positive prob": -0.37890636920928955,
      "epoch": 0,
      "step": 0
    },
    {
      "epoch": 0.029850746268656716,
      "grad_norm": 52.804205501572916,
      "learning_rate": 2.9772727272727274e-06,
      "loss": 1.4155,
      "step": 1
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 1.092234492301941,
      "Normal prob": -1.092234492301941,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.029850746268656716,
      "step": 1
    },
    {
      "DPO Loss": 0.3577462635421841,
      "Negative Geometric Mean": -0.3783103787169165,
      "Negative prob": -0.3783103787169165,
      "Normal Loss": 0.8107529282569885,
      "Normal prob": -0.8107529282569885,
      "Positive Loss": 0.07748764753341675,
      "Positive prob": -0.07748764753341675,
      "epoch": 0.029850746268656716,
      "step": 1
    },
    {
      "epoch": 0.05970149253731343,
      "grad_norm": 22.382695244020965,
      "learning_rate": 2.9545454545454547e-06,
      "loss": 1.1517,
      "step": 2
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8582519292831421,
      "Normal prob": -0.8582519292831421,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.05970149253731343,
      "step": 2
    },
    {
      "DPO Loss": 0.3623313108408915,
      "Negative Geometric Mean": -1.0158045398410653,
      "Negative prob": -1.0158045398410653,
      "Normal Loss": 0.7299004793167114,
      "Normal prob": -0.7299004793167114,
      "Positive Loss": 0.07864368706941605,
      "Positive prob": -0.07864368706941605,
      "epoch": 0.05970149253731343,
      "step": 2
    },
    {
      "epoch": 0.08955223880597014,
      "grad_norm": 12.355752020889257,
      "learning_rate": 2.931818181818182e-06,
      "loss": 1.0958,
      "step": 3
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9027985334396362,
      "Normal prob": -0.9027985334396362,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.08955223880597014,
      "step": 3
    },
    {
      "DPO Loss": 0.37659024799225,
      "Negative Geometric Mean": -0.6431755968319472,
      "Negative prob": -0.6431755968319472,
      "Normal Loss": 0.8552955389022827,
      "Normal prob": -0.8552955389022827,
      "Positive Loss": 0.0777173787355423,
      "Positive prob": -0.0777173787355423,
      "epoch": 0.08955223880597014,
      "step": 3
    },
    {
      "epoch": 0.11940298507462686,
      "grad_norm": 13.671836146708186,
      "learning_rate": 2.9090909090909093e-06,
      "loss": 1.065,
      "step": 4
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9766985177993774,
      "Normal prob": -0.9766985177993774,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.11940298507462686,
      "step": 4
    },
    {
      "DPO Loss": 0.35204142219855233,
      "Negative Geometric Mean": -0.8325932820638021,
      "Negative prob": -0.8325932820638021,
      "Normal Loss": 1.0553878545761108,
      "Normal prob": -1.0553878545761108,
      "Positive Loss": 0.09103336185216904,
      "Positive prob": -0.09103336185216904,
      "epoch": 0.11940298507462686,
      "step": 4
    },
    {
      "epoch": 0.14925373134328357,
      "grad_norm": 9.500922911135007,
      "learning_rate": 2.8863636363636366e-06,
      "loss": 1.2053,
      "step": 5
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9637267589569092,
      "Normal prob": -0.9637267589569092,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.14925373134328357,
      "step": 5
    },
    {
      "DPO Loss": 0.3369350566486365,
      "Negative Geometric Mean": -0.8089229916566171,
      "Negative prob": -0.8089229916566171,
      "Normal Loss": 0.809516429901123,
      "Normal prob": -0.809516429901123,
      "Positive Loss": 0.08676248043775558,
      "Positive prob": -0.08676248043775558,
      "epoch": 0.14925373134328357,
      "step": 5
    },
    {
      "epoch": 0.1791044776119403,
      "grad_norm": 9.50990015460849,
      "learning_rate": 2.863636363636364e-06,
      "loss": 1.1133,
      "step": 6
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.832047700881958,
      "Normal prob": -0.832047700881958,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.1791044776119403,
      "step": 6
    },
    {
      "DPO Loss": 0.3370728580941308,
      "Negative Geometric Mean": -0.8685310105770683,
      "Negative prob": -0.8685310105770683,
      "Normal Loss": 0.8815029263496399,
      "Normal prob": -0.8815029263496399,
      "Positive Loss": 0.07432825863361359,
      "Positive prob": -0.07432825863361359,
      "epoch": 0.1791044776119403,
      "step": 6
    },
    {
      "epoch": 0.208955223880597,
      "grad_norm": 8.039098978654936,
      "learning_rate": 2.840909090909091e-06,
      "loss": 1.2064,
      "step": 7
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9996135830879211,
      "Normal prob": -0.9996135830879211,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.208955223880597,
      "step": 7
    },
    {
      "DPO Loss": 0.35429090257439527,
      "Negative Geometric Mean": -0.610354295417444,
      "Negative prob": -0.610354295417444,
      "Normal Loss": 0.716498851776123,
      "Normal prob": -0.716498851776123,
      "Positive Loss": 0.09210512042045593,
      "Positive prob": -0.09210512042045593,
      "epoch": 0.208955223880597,
      "step": 7
    },
    {
      "epoch": 0.23880597014925373,
      "grad_norm": 9.566983237882555,
      "learning_rate": 2.8181818181818185e-06,
      "loss": 1.067,
      "step": 8
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8073037266731262,
      "Normal prob": -0.8073037266731262,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.23880597014925373,
      "step": 8
    },
    {
      "DPO Loss": 0.31094894833121156,
      "Negative Geometric Mean": -0.8462985688606195,
      "Negative prob": -0.8462985688606195,
      "Normal Loss": 0.5099501013755798,
      "Normal prob": -0.5099501013755798,
      "Positive Loss": 0.09047375619411469,
      "Positive prob": -0.09047375619411469,
      "epoch": 0.23880597014925373,
      "step": 8
    },
    {
      "epoch": 0.26865671641791045,
      "grad_norm": 7.87857077645135,
      "learning_rate": 2.7954545454545453e-06,
      "loss": 1.0028,
      "step": 9
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.850799024105072,
      "Normal prob": -0.850799024105072,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.26865671641791045,
      "step": 9
    },
    {
      "DPO Loss": 0.30296717585093275,
      "Negative Geometric Mean": -0.9634897133738725,
      "Negative prob": -0.9634897133738725,
      "Normal Loss": 1.2854121923446655,
      "Normal prob": -1.2854121923446655,
      "Positive Loss": 0.07252619415521622,
      "Positive prob": -0.07252619415521622,
      "epoch": 0.26865671641791045,
      "step": 9
    },
    {
      "epoch": 0.29850746268656714,
      "grad_norm": 9.469089262773355,
      "learning_rate": 2.7727272727272726e-06,
      "loss": 1.1173,
      "step": 10
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8608676195144653,
      "Normal prob": -0.8608676195144653,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.29850746268656714,
      "step": 10
    },
    {
      "DPO Loss": 0.26851745737184274,
      "Negative Geometric Mean": -1.0714603639998526,
      "Negative prob": -1.0714603639998526,
      "Normal Loss": 0.7984556555747986,
      "Normal prob": -0.7984556555747986,
      "Positive Loss": 0.05822120979428291,
      "Positive prob": -0.05822120979428291,
      "epoch": 0.29850746268656714,
      "step": 10
    },
    {
      "epoch": 0.3283582089552239,
      "grad_norm": 7.287903263195378,
      "learning_rate": 2.75e-06,
      "loss": 1.013,
      "step": 11
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8310959339141846,
      "Normal prob": -0.8310959339141846,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.3283582089552239,
      "step": 11
    },
    {
      "DPO Loss": 0.26161430097353844,
      "Negative Geometric Mean": -1.1722790406482055,
      "Negative prob": -1.1722790406482055,
      "Normal Loss": 0.8640764355659485,
      "Normal prob": -0.8640764355659485,
      "Positive Loss": 0.07576876878738403,
      "Positive prob": -0.07576876878738403,
      "epoch": 0.3283582089552239,
      "step": 11
    },
    {
      "epoch": 0.3582089552238806,
      "grad_norm": 12.679434481744659,
      "learning_rate": 2.7272727272727272e-06,
      "loss": 1.1083,
      "step": 12
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9239760637283325,
      "Normal prob": -0.9239760637283325,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.3582089552238806,
      "step": 12
    },
    {
      "DPO Loss": 0.3063912470938362,
      "Negative Geometric Mean": -0.7924091110304511,
      "Negative prob": -0.7924091110304511,
      "Normal Loss": 0.8149660229682922,
      "Normal prob": -0.8149660229682922,
      "Positive Loss": 0.06200961023569107,
      "Positive prob": -0.06200961023569107,
      "epoch": 0.3582089552238806,
      "step": 12
    },
    {
      "epoch": 0.3880597014925373,
      "grad_norm": 8.690620794915942,
      "learning_rate": 2.7045454545454545e-06,
      "loss": 1.0424,
      "step": 13
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7188159227371216,
      "Normal prob": -0.7188159227371216,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.3880597014925373,
      "step": 13
    },
    {
      "DPO Loss": 0.2937756023461591,
      "Negative Geometric Mean": -0.4400056991696919,
      "Negative prob": -0.4400056991696919,
      "Normal Loss": 0.8943111300468445,
      "Normal prob": -0.8943111300468445,
      "Positive Loss": 0.09851977974176407,
      "Positive prob": -0.09851977974176407,
      "epoch": 0.3880597014925373,
      "step": 13
    },
    {
      "epoch": 0.417910447761194,
      "grad_norm": 8.116923440818201,
      "learning_rate": 2.681818181818182e-06,
      "loss": 1.019,
      "step": 14
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7557149529457092,
      "Normal prob": -0.7557149529457092,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.417910447761194,
      "step": 14
    },
    {
      "DPO Loss": 0.3186842313017755,
      "Negative Geometric Mean": -1.1004963759258488,
      "Negative prob": -1.1004963759258488,
      "Normal Loss": 0.8593255877494812,
      "Normal prob": -0.8593255877494812,
      "Positive Loss": 0.04907805845141411,
      "Positive prob": -0.04907805845141411,
      "epoch": 0.417910447761194,
      "step": 14
    },
    {
      "epoch": 0.44776119402985076,
      "grad_norm": 8.007172349603502,
      "learning_rate": 2.659090909090909e-06,
      "loss": 1.0353,
      "step": 15
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.897316038608551,
      "Normal prob": -0.897316038608551,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.44776119402985076,
      "step": 15
    },
    {
      "DPO Loss": 0.1223304973432013,
      "Negative Geometric Mean": -1.9276966850878456,
      "Negative prob": -1.9276966850878456,
      "Normal Loss": 0.6334409117698669,
      "Normal prob": -0.6334409117698669,
      "Positive Loss": 0.05224687606096268,
      "Positive prob": -0.05224687606096268,
      "epoch": 0.44776119402985076,
      "step": 15
    },
    {
      "epoch": 0.47761194029850745,
      "grad_norm": 8.24043100452026,
      "learning_rate": 2.6363636363636364e-06,
      "loss": 0.9134,
      "step": 16
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9187679886817932,
      "Normal prob": -0.9187679886817932,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.47761194029850745,
      "step": 16
    },
    {
      "DPO Loss": 0.055564984135369914,
      "Negative Geometric Mean": -3.0230499623024127,
      "Negative prob": -3.0230499623024127,
      "Normal Loss": 1.1529364585876465,
      "Normal prob": -1.1529364585876465,
      "Positive Loss": 0.08235401660203934,
      "Positive prob": -0.08235401660203934,
      "epoch": 0.47761194029850745,
      "step": 16
    },
    {
      "epoch": 0.5074626865671642,
      "grad_norm": 8.688253054467179,
      "learning_rate": 2.6136363636363637e-06,
      "loss": 1.0468,
      "step": 17
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7582242488861084,
      "Normal prob": -0.7582242488861084,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.5074626865671642,
      "step": 17
    },
    {
      "DPO Loss": 0.12820626634228,
      "Negative Geometric Mean": -2.269475635729338,
      "Negative prob": -2.269475635729338,
      "Normal Loss": 0.3805200755596161,
      "Normal prob": -0.3805200755596161,
      "Positive Loss": 0.07097562402486801,
      "Positive prob": -0.07097562402486801,
      "epoch": 0.5074626865671642,
      "step": 17
    },
    {
      "epoch": 0.5373134328358209,
      "grad_norm": 8.727946309173646,
      "learning_rate": 2.590909090909091e-06,
      "loss": 0.8819,
      "step": 18
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 1.0369868278503418,
      "Normal prob": -1.0369868278503418,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.5373134328358209,
      "step": 18
    },
    {
      "DPO Loss": 0.06657070366779086,
      "Negative Geometric Mean": -2.8913005754059435,
      "Negative prob": -2.8913005754059435,
      "Normal Loss": 0.7784830331802368,
      "Normal prob": -0.7784830331802368,
      "Positive Loss": 0.04361863434314728,
      "Positive prob": -0.04361863434314728,
      "epoch": 0.5373134328358209,
      "step": 18
    },
    {
      "epoch": 0.5671641791044776,
      "grad_norm": 8.562076920129734,
      "learning_rate": 2.5681818181818183e-06,
      "loss": 0.8626,
      "step": 19
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9392335414886475,
      "Normal prob": -0.9392335414886475,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.5671641791044776,
      "step": 19
    },
    {
      "DPO Loss": 0.004452790854185025,
      "Negative Geometric Mean": -5.43384802094139,
      "Negative prob": -5.43384802094139,
      "Normal Loss": 0.8345220685005188,
      "Normal prob": -0.8345220685005188,
      "Positive Loss": 0.07906413078308105,
      "Positive prob": -0.07906413078308105,
      "epoch": 0.5671641791044776,
      "step": 19
    },
    {
      "epoch": 0.5970149253731343,
      "grad_norm": 9.154040073172876,
      "learning_rate": 2.5454545454545456e-06,
      "loss": 0.9584,
      "step": 20
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8151698112487793,
      "Normal prob": -0.8151698112487793,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.5970149253731343,
      "step": 20
    },
    {
      "DPO Loss": 0.0007850244175145432,
      "Negative Geometric Mean": -7.495313533399471,
      "Negative prob": -7.495313533399471,
      "Normal Loss": 0.8681256771087646,
      "Normal prob": -0.8681256771087646,
      "Positive Loss": 0.05661068111658096,
      "Positive prob": -0.05661068111658096,
      "epoch": 0.5970149253731343,
      "step": 20
    },
    {
      "epoch": 0.6268656716417911,
      "grad_norm": 19.32249471061477,
      "learning_rate": 2.522727272727273e-06,
      "loss": 0.9313,
      "step": 21
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8350412249565125,
      "Normal prob": -0.8350412249565125,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.6268656716417911,
      "step": 21
    },
    {
      "DPO Loss": 0.013323540066809244,
      "Negative Geometric Mean": -4.539878773912091,
      "Negative prob": -4.539878773912091,
      "Normal Loss": 0.8549312949180603,
      "Normal prob": -0.8549312949180603,
      "Positive Loss": 0.0937165841460228,
      "Positive prob": -0.0937165841460228,
      "epoch": 0.6268656716417911,
      "step": 21
    },
    {
      "epoch": 0.6567164179104478,
      "grad_norm": 18.4720664879043,
      "learning_rate": 2.5e-06,
      "loss": 0.9518,
      "step": 22
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.83185875415802,
      "Normal prob": -0.83185875415802,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.6567164179104478,
      "step": 22
    },
    {
      "DPO Loss": 7.441585176947715e-05,
      "Negative Geometric Mean": -9.482926878210616,
      "Negative prob": -9.482926878210616,
      "Normal Loss": 1.0035439729690552,
      "Normal prob": -1.0035439729690552,
      "Positive Loss": 0.1059131771326065,
      "Positive prob": -0.1059131771326065,
      "epoch": 0.6567164179104478,
      "step": 22
    },
    {
      "epoch": 0.6865671641791045,
      "grad_norm": 7.4403596397354015,
      "learning_rate": 2.4772727272727275e-06,
      "loss": 0.9741,
      "step": 23
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 1.1941570043563843,
      "Normal prob": -1.1941570043563843,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.6865671641791045,
      "step": 23
    },
    {
      "DPO Loss": 5.767926370817813e-06,
      "Negative Geometric Mean": -12.173237529280238,
      "Negative prob": -12.173237529280238,
      "Normal Loss": 0.7278223037719727,
      "Normal prob": -0.7278223037719727,
      "Positive Loss": 0.07192976027727127,
      "Positive prob": -0.07192976027727127,
      "epoch": 0.6865671641791045,
      "step": 23
    },
    {
      "epoch": 0.7164179104477612,
      "grad_norm": 7.330688093396721,
      "learning_rate": 2.454545454545455e-06,
      "loss": 0.9927,
      "step": 24
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9865759611129761,
      "Normal prob": -0.9865759611129761,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.7164179104477612,
      "step": 24
    },
    {
      "DPO Loss": 1.0947351633426092e-05,
      "Negative Geometric Mean": -11.567188243575508,
      "Negative prob": -11.567188243575508,
      "Normal Loss": 0.8570675253868103,
      "Normal prob": -0.8570675253868103,
      "Positive Loss": 0.06724032014608383,
      "Positive prob": -0.06724032014608383,
      "epoch": 0.7164179104477612,
      "step": 24
    },
    {
      "epoch": 0.746268656716418,
      "grad_norm": 7.557781355223681,
      "learning_rate": 2.4318181818181817e-06,
      "loss": 0.9221,
      "step": 25
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9384709000587463,
      "Normal prob": -0.9384709000587463,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.746268656716418,
      "step": 25
    },
    {
      "DPO Loss": 0.0003560853089358333,
      "Negative Geometric Mean": -8.138521756169094,
      "Negative prob": -8.138521756169094,
      "Normal Loss": 0.8964889049530029,
      "Normal prob": -0.8964889049530029,
      "Positive Loss": 0.06566499173641205,
      "Positive prob": -0.06566499173641205,
      "epoch": 0.746268656716418,
      "step": 25
    },
    {
      "epoch": 0.7761194029850746,
      "grad_norm": 7.046101597469539,
      "learning_rate": 2.409090909090909e-06,
      "loss": 0.9733,
      "step": 26
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9506588578224182,
      "Normal prob": -0.9506588578224182,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.7761194029850746,
      "step": 26
    },
    {
      "DPO Loss": 8.255091540571396e-06,
      "Negative Geometric Mean": -11.822831423895254,
      "Negative prob": -11.822831423895254,
      "Normal Loss": 0.9992624521255493,
      "Normal prob": -0.9992624521255493,
      "Positive Loss": 0.093373604118824,
      "Positive prob": -0.093373604118824,
      "epoch": 0.7761194029850746,
      "step": 26
    },
    {
      "epoch": 0.8059701492537313,
      "grad_norm": 6.576814099531671,
      "learning_rate": 2.3863636363636363e-06,
      "loss": 0.9531,
      "step": 27
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.964348316192627,
      "Normal prob": -0.964348316192627,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.8059701492537313,
      "step": 27
    },
    {
      "DPO Loss": 1.038318288302413e-05,
      "Negative Geometric Mean": -12.70634533110119,
      "Negative prob": -12.70634533110119,
      "Normal Loss": 0.8761529326438904,
      "Normal prob": -0.8761529326438904,
      "Positive Loss": 0.048190467059612274,
      "Positive prob": -0.048190467059612274,
      "epoch": 0.8059701492537313,
      "step": 27
    },
    {
      "epoch": 0.835820895522388,
      "grad_norm": 7.041162886647003,
      "learning_rate": 2.3636363636363636e-06,
      "loss": 0.9254,
      "step": 28
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 1.0659770965576172,
      "Normal prob": -1.0659770965576172,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.835820895522388,
      "step": 28
    },
    {
      "DPO Loss": 4.745458003421849e-06,
      "Negative Geometric Mean": -12.22632121816452,
      "Negative prob": -12.22632121816452,
      "Normal Loss": 0.877432644367218,
      "Normal prob": -0.877432644367218,
      "Positive Loss": 0.07441161572933197,
      "Positive prob": -0.07441161572933197,
      "epoch": 0.835820895522388,
      "step": 28
    },
    {
      "epoch": 0.8656716417910447,
      "grad_norm": 6.123530075257292,
      "learning_rate": 2.340909090909091e-06,
      "loss": 0.9906,
      "step": 29
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.9131932854652405,
      "Normal prob": -0.9131932854652405,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.8656716417910447,
      "step": 29
    },
    {
      "DPO Loss": 1.6460282004165447e-05,
      "Negative Geometric Mean": -11.04015827178955,
      "Negative prob": -11.04015827178955,
      "Normal Loss": 1.063417673110962,
      "Normal prob": -1.063417673110962,
      "Positive Loss": 0.050095487385988235,
      "Positive prob": -0.050095487385988235,
      "epoch": 0.8656716417910447,
      "step": 29
    },
    {
      "epoch": 0.8955223880597015,
      "grad_norm": 6.118956679067234,
      "learning_rate": 2.318181818181818e-06,
      "loss": 0.9193,
      "step": 30
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8643659949302673,
      "Normal prob": -0.8643659949302673,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.8955223880597015,
      "step": 30
    },
    {
      "DPO Loss": 9.904635203296299e-06,
      "Negative Geometric Mean": -11.622193305258186,
      "Negative prob": -11.622193305258186,
      "Normal Loss": 0.7562206983566284,
      "Normal prob": -0.7562206983566284,
      "Positive Loss": 0.05644884705543518,
      "Positive prob": -0.05644884705543518,
      "epoch": 0.8955223880597015,
      "step": 30
    },
    {
      "epoch": 0.9253731343283582,
      "grad_norm": 6.536101223333384,
      "learning_rate": 2.2954545454545455e-06,
      "loss": 0.8934,
      "step": 31
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8608868718147278,
      "Normal prob": -0.8608868718147278,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.9253731343283582,
      "step": 31
    },
    {
      "DPO Loss": 2.137509260823493e-05,
      "Negative Geometric Mean": -10.705368454391891,
      "Negative prob": -10.705368454391891,
      "Normal Loss": 0.71401047706604,
      "Normal prob": -0.71401047706604,
      "Positive Loss": 0.06425323337316513,
      "Positive prob": -0.06425323337316513,
      "epoch": 0.9253731343283582,
      "step": 31
    },
    {
      "epoch": 0.9552238805970149,
      "grad_norm": 7.040623160546982,
      "learning_rate": 2.2727272727272728e-06,
      "loss": 0.8664,
      "step": 32
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7989053130149841,
      "Normal prob": -0.7989053130149841,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.9552238805970149,
      "step": 32
    },
    {
      "DPO Loss": 2.7078393532067353e-05,
      "Negative Geometric Mean": -10.612409125434027,
      "Negative prob": -10.612409125434027,
      "Normal Loss": 0.9129906892776489,
      "Normal prob": -0.9129906892776489,
      "Positive Loss": 0.10737287253141403,
      "Positive prob": -0.10737287253141403,
      "epoch": 0.9552238805970149,
      "step": 32
    },
    {
      "epoch": 0.9850746268656716,
      "grad_norm": 6.585654111220224,
      "learning_rate": 2.25e-06,
      "loss": 0.842,
      "step": 33
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.8037691712379456,
      "Normal prob": -0.8037691712379456,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.9850746268656716,
      "step": 33
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7143898606300354,
      "Normal prob": -0.7143898606300354,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 0.9850746268656716,
      "step": 33
    },
    {
      "epoch": 1.0149253731343284,
      "grad_norm": 9.914782438598868,
      "learning_rate": 2.2272727272727274e-06,
      "loss": 0.6917,
      "step": 34
    },
    {
      "DPO Loss": 3.654100751997121e-05,
      "Negative Geometric Mean": -10.674591619318182,
      "Negative prob": -10.674591619318182,
      "Normal Loss": 0.48714742064476013,
      "Normal prob": -0.48714742064476013,
      "Positive Loss": 0.03236498683691025,
      "Positive prob": -0.03236498683691025,
      "epoch": 1.0149253731343284,
      "step": 34
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5524182915687561,
      "Normal prob": -0.5524182915687561,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.0149253731343284,
      "step": 34
    },
    {
      "epoch": 1.044776119402985,
      "grad_norm": 7.2083835894058375,
      "learning_rate": 2.2045454545454547e-06,
      "loss": 0.6615,
      "step": 35
    },
    {
      "DPO Loss": 5.3735510809371045e-05,
      "Negative Geometric Mean": -10.087603725282486,
      "Negative prob": -10.087603725282486,
      "Normal Loss": 0.47449687123298645,
      "Normal prob": -0.47449687123298645,
      "Positive Loss": 0.02946843020617962,
      "Positive prob": -0.02946843020617962,
      "epoch": 1.044776119402985,
      "step": 35
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5653090476989746,
      "Normal prob": -0.5653090476989746,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.044776119402985,
      "step": 35
    },
    {
      "epoch": 1.0746268656716418,
      "grad_norm": 7.509154772376704,
      "learning_rate": 2.181818181818182e-06,
      "loss": 0.5463,
      "step": 36
    },
    {
      "DPO Loss": 4.57076718186167e-05,
      "Negative Geometric Mean": -10.369059509873779,
      "Negative prob": -10.369059509873779,
      "Normal Loss": 0.7275592684745789,
      "Normal prob": -0.7275592684745789,
      "Positive Loss": 0.022183816879987717,
      "Positive prob": -0.022183816879987717,
      "epoch": 1.0746268656716418,
      "step": 36
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.48975300788879395,
      "Normal prob": -0.48975300788879395,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.0746268656716418,
      "step": 36
    },
    {
      "epoch": 1.1044776119402986,
      "grad_norm": 5.921019640825061,
      "learning_rate": 2.1590909090909092e-06,
      "loss": 0.6523,
      "step": 37
    },
    {
      "DPO Loss": 7.289560432171723e-05,
      "Negative Geometric Mean": -9.601848503888467,
      "Negative prob": -9.601848503888467,
      "Normal Loss": 0.8984713554382324,
      "Normal prob": -0.8984713554382324,
      "Positive Loss": 0.029801441356539726,
      "Positive prob": -0.029801441356539726,
      "epoch": 1.1044776119402986,
      "step": 37
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.709186851978302,
      "Normal prob": -0.709186851978302,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.1044776119402986,
      "step": 37
    },
    {
      "epoch": 1.1343283582089552,
      "grad_norm": 7.446657265486741,
      "learning_rate": 2.1363636363636365e-06,
      "loss": 0.6967,
      "step": 38
    },
    {
      "DPO Loss": 2.6440661378327594e-05,
      "Negative Geometric Mean": -10.957384672619048,
      "Negative prob": -10.957384672619048,
      "Normal Loss": 0.44052013754844666,
      "Normal prob": -0.44052013754844666,
      "Positive Loss": 0.02077590487897396,
      "Positive prob": -0.02077590487897396,
      "epoch": 1.1343283582089552,
      "step": 38
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.39025214314460754,
      "Normal prob": -0.39025214314460754,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.1343283582089552,
      "step": 38
    },
    {
      "epoch": 1.164179104477612,
      "grad_norm": 6.65773645557663,
      "learning_rate": 2.113636363636364e-06,
      "loss": 0.5978,
      "step": 39
    },
    {
      "DPO Loss": 2.123153925438824e-05,
      "Negative Geometric Mean": -10.680970389887971,
      "Negative prob": -10.680970389887971,
      "Normal Loss": 0.6101383566856384,
      "Normal prob": -0.6101383566856384,
      "Positive Loss": 0.03984152898192406,
      "Positive prob": -0.03984152898192406,
      "epoch": 1.164179104477612,
      "step": 39
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5792780518531799,
      "Normal prob": -0.5792780518531799,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.164179104477612,
      "step": 39
    },
    {
      "epoch": 1.1940298507462686,
      "grad_norm": 6.924093024562789,
      "learning_rate": 2.090909090909091e-06,
      "loss": 0.6592,
      "step": 40
    },
    {
      "DPO Loss": 1.6680911890968927e-05,
      "Negative Geometric Mean": -10.952719974078342,
      "Negative prob": -10.952719974078342,
      "Normal Loss": 0.4338739216327667,
      "Normal prob": -0.4338739216327667,
      "Positive Loss": 0.03350961208343506,
      "Positive prob": -0.03350961208343506,
      "epoch": 1.1940298507462686,
      "step": 40
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3462405800819397,
      "Normal prob": -0.3462405800819397,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.1940298507462686,
      "step": 40
    },
    {
      "epoch": 1.2238805970149254,
      "grad_norm": 6.295634713144118,
      "learning_rate": 2.0681818181818184e-06,
      "loss": 0.5281,
      "step": 41
    },
    {
      "DPO Loss": 1.9216125147544902e-05,
      "Negative Geometric Mean": -10.949885493970315,
      "Negative prob": -10.949885493970315,
      "Normal Loss": 0.6209268569946289,
      "Normal prob": -0.6209268569946289,
      "Positive Loss": 0.010221516713500023,
      "Positive prob": -0.010221516713500023,
      "epoch": 1.2238805970149254,
      "step": 41
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4472298324108124,
      "Normal prob": -0.4472298324108124,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.2238805970149254,
      "step": 41
    },
    {
      "epoch": 1.2537313432835822,
      "grad_norm": 5.857596369043,
      "learning_rate": 2.0454545454545453e-06,
      "loss": 0.5837,
      "step": 42
    },
    {
      "DPO Loss": 3.1575882722812355e-05,
      "Negative Geometric Mean": -10.842009715544872,
      "Negative prob": -10.842009715544872,
      "Normal Loss": 0.3952675461769104,
      "Normal prob": -0.3952675461769104,
      "Positive Loss": 0.06998435407876968,
      "Positive prob": -0.06998435407876968,
      "epoch": 1.2537313432835822,
      "step": 42
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3682936131954193,
      "Normal prob": -0.3682936131954193,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.2537313432835822,
      "step": 42
    },
    {
      "epoch": 1.2835820895522387,
      "grad_norm": 6.19946111675221,
      "learning_rate": 2.0227272727272726e-06,
      "loss": 0.4489,
      "step": 43
    },
    {
      "DPO Loss": 7.918896147509772e-06,
      "Negative Geometric Mean": -11.86809765625,
      "Negative prob": -11.86809765625,
      "Normal Loss": 0.7341710329055786,
      "Normal prob": -0.7341710329055786,
      "Positive Loss": 0.023408204317092896,
      "Positive prob": -0.023408204317092896,
      "epoch": 1.2835820895522387,
      "step": 43
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5852903723716736,
      "Normal prob": -0.5852903723716736,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.2835820895522387,
      "step": 43
    },
    {
      "epoch": 1.3134328358208955,
      "grad_norm": 7.299737993528941,
      "learning_rate": 2e-06,
      "loss": 0.6287,
      "step": 44
    },
    {
      "DPO Loss": 1.81222332665437e-05,
      "Negative Geometric Mean": -10.647718364689625,
      "Negative prob": -10.647718364689625,
      "Normal Loss": 0.4992733597755432,
      "Normal prob": -0.4992733597755432,
      "Positive Loss": 0.05666818842291832,
      "Positive prob": -0.05666818842291832,
      "epoch": 1.3134328358208955,
      "step": 44
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7956355810165405,
      "Normal prob": -0.7956355810165405,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.3134328358208955,
      "step": 44
    },
    {
      "epoch": 1.3432835820895521,
      "grad_norm": 7.900970686658878,
      "learning_rate": 1.977272727272727e-06,
      "loss": 0.7441,
      "step": 45
    },
    {
      "DPO Loss": 6.092015148833826e-05,
      "Negative Geometric Mean": -9.997283935546875,
      "Negative prob": -9.997283935546875,
      "Normal Loss": 0.5293800830841064,
      "Normal prob": -0.5293800830841064,
      "Positive Loss": 0.012493799440562725,
      "Positive prob": -0.012493799440562725,
      "epoch": 1.3432835820895521,
      "step": 45
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.6335676908493042,
      "Normal prob": -0.6335676908493042,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.3432835820895521,
      "step": 45
    },
    {
      "epoch": 1.373134328358209,
      "grad_norm": 6.033587067188048,
      "learning_rate": 1.9545454545454545e-06,
      "loss": 0.6688,
      "step": 46
    },
    {
      "DPO Loss": 2.075863324394268e-05,
      "Negative Geometric Mean": -11.443209795884684,
      "Negative prob": -11.443209795884684,
      "Normal Loss": 0.9459198713302612,
      "Normal prob": -0.9459198713302612,
      "Positive Loss": 0.019672967493534088,
      "Positive prob": -0.019672967493534088,
      "epoch": 1.373134328358209,
      "step": 46
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5753485560417175,
      "Normal prob": -0.5753485560417175,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.373134328358209,
      "step": 46
    },
    {
      "epoch": 1.4029850746268657,
      "grad_norm": 6.437116667065512,
      "learning_rate": 1.931818181818182e-06,
      "loss": 0.7138,
      "step": 47
    },
    {
      "DPO Loss": 5.24218732737661e-05,
      "Negative Geometric Mean": -10.045061616056572,
      "Negative prob": -10.045061616056572,
      "Normal Loss": 0.6808024644851685,
      "Normal prob": -0.6808024644851685,
      "Positive Loss": 0.023415615782141685,
      "Positive prob": -0.023415615782141685,
      "epoch": 1.4029850746268657,
      "step": 47
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.6357601284980774,
      "Normal prob": -0.6357601284980774,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.4029850746268657,
      "step": 47
    },
    {
      "epoch": 1.4328358208955223,
      "grad_norm": 7.152119639795567,
      "learning_rate": 1.909090909090909e-06,
      "loss": 0.6079,
      "step": 48
    },
    {
      "DPO Loss": 7.2306889216542525e-06,
      "Negative Geometric Mean": -12.073476457210242,
      "Negative prob": -12.073476457210242,
      "Normal Loss": 0.5705257058143616,
      "Normal prob": -0.5705257058143616,
      "Positive Loss": 0.02072186954319477,
      "Positive prob": -0.02072186954319477,
      "epoch": 1.4328358208955223,
      "step": 48
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5705331563949585,
      "Normal prob": -0.5705331563949585,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.4328358208955223,
      "step": 48
    },
    {
      "epoch": 1.462686567164179,
      "grad_norm": 8.435206603146995,
      "learning_rate": 1.8863636363636364e-06,
      "loss": 0.4921,
      "step": 49
    },
    {
      "DPO Loss": 1.2005791148960418e-05,
      "Negative Geometric Mean": -11.335293660121682,
      "Negative prob": -11.335293660121682,
      "Normal Loss": 0.4985297918319702,
      "Normal prob": -0.4985297918319702,
      "Positive Loss": 0.03511481359601021,
      "Positive prob": -0.03511481359601021,
      "epoch": 1.462686567164179,
      "step": 49
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5165051221847534,
      "Normal prob": -0.5165051221847534,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.462686567164179,
      "step": 49
    },
    {
      "epoch": 1.4925373134328357,
      "grad_norm": 6.663071553118176,
      "learning_rate": 1.8636363636363637e-06,
      "loss": 0.582,
      "step": 50
    },
    {
      "DPO Loss": 8.121549918893668e-06,
      "Negative Geometric Mean": -11.646775242426388,
      "Negative prob": -11.646775242426388,
      "Normal Loss": 0.7396381497383118,
      "Normal prob": -0.7396381497383118,
      "Positive Loss": 0.046656664460897446,
      "Positive prob": -0.046656664460897446,
      "epoch": 1.4925373134328357,
      "step": 50
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.46003180742263794,
      "Normal prob": -0.46003180742263794,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.4925373134328357,
      "step": 50
    },
    {
      "epoch": 1.5223880597014925,
      "grad_norm": 6.8924034055431225,
      "learning_rate": 1.840909090909091e-06,
      "loss": 0.5667,
      "step": 51
    },
    {
      "DPO Loss": 3.960602457920955e-05,
      "Negative Geometric Mean": -10.694715555003613,
      "Negative prob": -10.694715555003613,
      "Normal Loss": 0.32585108280181885,
      "Normal prob": -0.32585108280181885,
      "Positive Loss": 0.04867149889469147,
      "Positive prob": -0.04867149889469147,
      "epoch": 1.5223880597014925,
      "step": 51
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4816523492336273,
      "Normal prob": -0.4816523492336273,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.5223880597014925,
      "step": 51
    },
    {
      "epoch": 1.5522388059701493,
      "grad_norm": 7.4924421694754075,
      "learning_rate": 1.8181818181818183e-06,
      "loss": 0.4917,
      "step": 52
    },
    {
      "DPO Loss": 5.1645393655010374e-05,
      "Negative Geometric Mean": -10.168975942689114,
      "Negative prob": -10.168975942689114,
      "Normal Loss": 0.30011507868766785,
      "Normal prob": -0.30011507868766785,
      "Positive Loss": 0.02231639437377453,
      "Positive prob": -0.02231639437377453,
      "epoch": 1.5522388059701493,
      "step": 52
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4937782287597656,
      "Normal prob": -0.4937782287597656,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.5522388059701493,
      "step": 52
    },
    {
      "epoch": 1.582089552238806,
      "grad_norm": 7.184478655478447,
      "learning_rate": 1.7954545454545456e-06,
      "loss": 0.5295,
      "step": 53
    },
    {
      "DPO Loss": 5.356822072205326e-06,
      "Negative Geometric Mean": -12.203828545026882,
      "Negative prob": -12.203828545026882,
      "Normal Loss": 0.5068655014038086,
      "Normal prob": -0.5068655014038086,
      "Positive Loss": 0.02591904066503048,
      "Positive prob": -0.02591904066503048,
      "epoch": 1.582089552238806,
      "step": 53
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.44835716485977173,
      "Normal prob": -0.44835716485977173,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.582089552238806,
      "step": 53
    },
    {
      "epoch": 1.6119402985074627,
      "grad_norm": 6.665246283694876,
      "learning_rate": 1.7727272727272729e-06,
      "loss": 0.5862,
      "step": 54
    },
    {
      "DPO Loss": 2.7645910456594184e-05,
      "Negative Geometric Mean": -10.52684736755279,
      "Negative prob": -10.52684736755279,
      "Normal Loss": 0.4901617169380188,
      "Normal prob": -0.4901617169380188,
      "Positive Loss": 0.031082332134246826,
      "Positive prob": -0.031082332134246826,
      "epoch": 1.6119402985074627,
      "step": 54
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3990895450115204,
      "Normal prob": -0.3990895450115204,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.6119402985074627,
      "step": 54
    },
    {
      "epoch": 1.6417910447761193,
      "grad_norm": 7.251995962906654,
      "learning_rate": 1.7500000000000002e-06,
      "loss": 0.5512,
      "step": 55
    },
    {
      "DPO Loss": 5.845775193481474e-06,
      "Negative Geometric Mean": -11.981290714110127,
      "Negative prob": -11.981290714110127,
      "Normal Loss": 0.36946558952331543,
      "Normal prob": -0.36946558952331543,
      "Positive Loss": 0.03706742450594902,
      "Positive prob": -0.03706742450594902,
      "epoch": 1.6417910447761193,
      "step": 55
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.6298558712005615,
      "Normal prob": -0.6298558712005615,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.6417910447761193,
      "step": 55
    },
    {
      "epoch": 1.671641791044776,
      "grad_norm": 6.5830406614829995,
      "learning_rate": 1.7272727272727275e-06,
      "loss": 0.5497,
      "step": 56
    },
    {
      "DPO Loss": 3.2969348642918384e-05,
      "Negative Geometric Mean": -10.456912128245772,
      "Negative prob": -10.456912128245772,
      "Normal Loss": 0.6241900324821472,
      "Normal prob": -0.6241900324821472,
      "Positive Loss": 0.027565686032176018,
      "Positive prob": -0.027565686032176018,
      "epoch": 1.671641791044776,
      "step": 56
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.49294447898864746,
      "Normal prob": -0.49294447898864746,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.671641791044776,
      "step": 56
    },
    {
      "epoch": 1.7014925373134329,
      "grad_norm": 7.489375090765791,
      "learning_rate": 1.7045454545454548e-06,
      "loss": 0.5473,
      "step": 57
    },
    {
      "DPO Loss": 9.641101792233715e-06,
      "Negative Geometric Mean": -11.58503936609456,
      "Negative prob": -11.58503936609456,
      "Normal Loss": 0.4547930359840393,
      "Normal prob": -0.4547930359840393,
      "Positive Loss": 0.02409125678241253,
      "Positive prob": -0.02409125678241253,
      "epoch": 1.7014925373134329,
      "step": 57
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5437726378440857,
      "Normal prob": -0.5437726378440857,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.7014925373134329,
      "step": 57
    },
    {
      "epoch": 1.7313432835820897,
      "grad_norm": 7.870395979704569,
      "learning_rate": 1.6818181818181817e-06,
      "loss": 0.6139,
      "step": 58
    },
    {
      "DPO Loss": 1.2307788643174536e-05,
      "Negative Geometric Mean": -11.400927734375,
      "Negative prob": -11.400927734375,
      "Normal Loss": 0.4675034284591675,
      "Normal prob": -0.4675034284591675,
      "Positive Loss": 0.02847522310912609,
      "Positive prob": -0.02847522310912609,
      "epoch": 1.7313432835820897,
      "step": 58
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5951191186904907,
      "Normal prob": -0.5951191186904907,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.7313432835820897,
      "step": 58
    },
    {
      "epoch": 1.7611940298507462,
      "grad_norm": 7.248327621413268,
      "learning_rate": 1.659090909090909e-06,
      "loss": 0.5501,
      "step": 59
    },
    {
      "DPO Loss": 6.131353933599495e-06,
      "Negative Geometric Mean": -12.089666559278351,
      "Negative prob": -12.089666559278351,
      "Normal Loss": 0.6625760793685913,
      "Normal prob": -0.6625760793685913,
      "Positive Loss": 0.024925949051976204,
      "Positive prob": -0.024925949051976204,
      "epoch": 1.7611940298507462,
      "step": 59
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.574043333530426,
      "Normal prob": -0.574043333530426,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.7611940298507462,
      "step": 59
    },
    {
      "epoch": 1.7910447761194028,
      "grad_norm": 5.45423423175427,
      "learning_rate": 1.6363636363636363e-06,
      "loss": 0.5803,
      "step": 60
    },
    {
      "DPO Loss": 6.456255345351767e-06,
      "Negative Geometric Mean": -12.335179908988403,
      "Negative prob": -12.335179908988403,
      "Normal Loss": 0.5476536750793457,
      "Normal prob": -0.5476536750793457,
      "Positive Loss": 0.03484680876135826,
      "Positive prob": -0.03484680876135826,
      "epoch": 1.7910447761194028,
      "step": 60
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4749366343021393,
      "Normal prob": -0.4749366343021393,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.7910447761194028,
      "step": 60
    },
    {
      "epoch": 1.8208955223880596,
      "grad_norm": 5.8299300029602845,
      "learning_rate": 1.6136363636363635e-06,
      "loss": 0.5286,
      "step": 61
    },
    {
      "DPO Loss": 6.855680101123193e-06,
      "Negative Geometric Mean": -12.133075664569805,
      "Negative prob": -12.133075664569805,
      "Normal Loss": 0.49556368589401245,
      "Normal prob": -0.49556368589401245,
      "Positive Loss": 0.031043315306305885,
      "Positive prob": -0.031043315306305885,
      "epoch": 1.8208955223880596,
      "step": 61
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7167157530784607,
      "Normal prob": -0.7167157530784607,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.8208955223880596,
      "step": 61
    },
    {
      "epoch": 1.8507462686567164,
      "grad_norm": 6.451470188285151,
      "learning_rate": 1.5909090909090908e-06,
      "loss": 0.5513,
      "step": 62
    },
    {
      "DPO Loss": 1.236436099783623e-05,
      "Negative Geometric Mean": -11.445466172271574,
      "Negative prob": -11.445466172271574,
      "Normal Loss": 0.5918139219284058,
      "Normal prob": -0.5918139219284058,
      "Positive Loss": 0.026092026382684708,
      "Positive prob": -0.026092026382684708,
      "epoch": 1.8507462686567164,
      "step": 62
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4669744670391083,
      "Normal prob": -0.4669744670391083,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.8507462686567164,
      "step": 62
    },
    {
      "epoch": 1.8805970149253732,
      "grad_norm": 6.794192852617203,
      "learning_rate": 1.5681818181818181e-06,
      "loss": 0.4827,
      "step": 63
    },
    {
      "DPO Loss": 1.3348207631132665e-05,
      "Negative Geometric Mean": -11.5704201146176,
      "Negative prob": -11.5704201146176,
      "Normal Loss": 0.7752443552017212,
      "Normal prob": -0.7752443552017212,
      "Positive Loss": 0.03313179686665535,
      "Positive prob": -0.03313179686665535,
      "epoch": 1.8805970149253732,
      "step": 63
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4319833815097809,
      "Normal prob": -0.4319833815097809,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.8805970149253732,
      "step": 63
    },
    {
      "epoch": 1.9104477611940298,
      "grad_norm": 6.583453632012116,
      "learning_rate": 1.5454545454545454e-06,
      "loss": 0.5891,
      "step": 64
    },
    {
      "DPO Loss": 4.963582076406908e-06,
      "Negative Geometric Mean": -12.19005351163903,
      "Negative prob": -12.19005351163903,
      "Normal Loss": 0.7006582617759705,
      "Normal prob": -0.7006582617759705,
      "Positive Loss": 0.05256428197026253,
      "Positive prob": -0.05256428197026253,
      "epoch": 1.9104477611940298,
      "step": 64
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5088911652565002,
      "Normal prob": -0.5088911652565002,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.9104477611940298,
      "step": 64
    },
    {
      "epoch": 1.9402985074626866,
      "grad_norm": 6.441815309507991,
      "learning_rate": 1.5227272727272727e-06,
      "loss": 0.676,
      "step": 65
    },
    {
      "DPO Loss": 3.909155035241524e-06,
      "Negative Geometric Mean": -12.52902815645973,
      "Negative prob": -12.52902815645973,
      "Normal Loss": 0.4071587920188904,
      "Normal prob": -0.4071587920188904,
      "Positive Loss": 0.029172131791710854,
      "Positive prob": -0.029172131791710854,
      "epoch": 1.9402985074626866,
      "step": 65
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5863581299781799,
      "Normal prob": -0.5863581299781799,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.9402985074626866,
      "step": 65
    },
    {
      "epoch": 1.9701492537313432,
      "grad_norm": 6.3544200742459935,
      "learning_rate": 1.5e-06,
      "loss": 0.4844,
      "step": 66
    },
    {
      "DPO Loss": 4.394697707115605e-06,
      "Negative Geometric Mean": -12.445152789608176,
      "Negative prob": -12.445152789608176,
      "Normal Loss": 0.5812058448791504,
      "Normal prob": -0.5812058448791504,
      "Positive Loss": 0.025852346792817116,
      "Positive prob": -0.025852346792817116,
      "epoch": 1.9701492537313432,
      "step": 66
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7593735456466675,
      "Normal prob": -0.7593735456466675,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 1.9701492537313432,
      "step": 66
    },
    {
      "epoch": 2.0,
      "grad_norm": 7.0108110525699985,
      "learning_rate": 1.4772727272727273e-06,
      "loss": 0.6144,
      "step": 67
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.34294071793556213,
      "Normal prob": -0.34294071793556213,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.0,
      "step": 67
    },
    {
      "DPO Loss": 2.4070561719272564e-06,
      "Negative Geometric Mean": -13.018313531479217,
      "Negative prob": -13.018313531479217,
      "Normal Loss": 0.3513112962245941,
      "Normal prob": -0.3513112962245941,
      "Positive Loss": 0.013781579211354256,
      "Positive prob": -0.013781579211354256,
      "epoch": 2.0,
      "step": 67
    },
    {
      "epoch": 2.029850746268657,
      "grad_norm": 7.07209986229336,
      "learning_rate": 1.4545454545454546e-06,
      "loss": 0.3488,
      "step": 68
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.17317090928554535,
      "Normal prob": -0.17317090928554535,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.029850746268657,
      "step": 68
    },
    {
      "DPO Loss": 2.6232480269051795e-05,
      "Negative Geometric Mean": -10.84640401579797,
      "Negative prob": -10.84640401579797,
      "Normal Loss": 0.2502392828464508,
      "Normal prob": -0.2502392828464508,
      "Positive Loss": 0.009016763418912888,
      "Positive prob": -0.009016763418912888,
      "epoch": 2.029850746268657,
      "step": 68
    },
    {
      "epoch": 2.0597014925373136,
      "grad_norm": 6.718484882180734,
      "learning_rate": 1.431818181818182e-06,
      "loss": 0.3109,
      "step": 69
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.25603172183036804,
      "Normal prob": -0.25603172183036804,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.0597014925373136,
      "step": 69
    },
    {
      "DPO Loss": 2.4722913198806987e-06,
      "Negative Geometric Mean": -13.571044921875,
      "Negative prob": -13.571044921875,
      "Normal Loss": 0.6462356448173523,
      "Normal prob": -0.6462356448173523,
      "Positive Loss": 0.004487407859414816,
      "Positive prob": -0.004487407859414816,
      "epoch": 2.0597014925373136,
      "step": 69
    },
    {
      "epoch": 2.08955223880597,
      "grad_norm": 6.391521213804556,
      "learning_rate": 1.4090909090909092e-06,
      "loss": 0.4603,
      "step": 70
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2792622148990631,
      "Normal prob": -0.2792622148990631,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.08955223880597,
      "step": 70
    },
    {
      "DPO Loss": 2.30209765905298e-06,
      "Negative Geometric Mean": -13.15788681702044,
      "Negative prob": -13.15788681702044,
      "Normal Loss": 0.297980934381485,
      "Normal prob": -0.297980934381485,
      "Positive Loss": 0.011687587015330791,
      "Positive prob": -0.011687587015330791,
      "epoch": 2.08955223880597,
      "step": 70
    },
    {
      "epoch": 2.1194029850746268,
      "grad_norm": 6.000476341412616,
      "learning_rate": 1.3863636363636363e-06,
      "loss": 0.426,
      "step": 71
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.31911832094192505,
      "Normal prob": -0.31911832094192505,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.1194029850746268,
      "step": 71
    },
    {
      "DPO Loss": 9.623063611478237e-07,
      "Negative Geometric Mean": -13.79306566782845,
      "Negative prob": -13.79306566782845,
      "Normal Loss": 0.1256338506937027,
      "Normal prob": -0.1256338506937027,
      "Positive Loss": 0.014073642902076244,
      "Positive prob": -0.014073642902076244,
      "epoch": 2.1194029850746268,
      "step": 71
    },
    {
      "epoch": 2.1492537313432836,
      "grad_norm": 5.665938957087509,
      "learning_rate": 1.3636363636363636e-06,
      "loss": 0.31,
      "step": 72
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.5485053062438965,
      "Normal prob": -0.5485053062438965,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.1492537313432836,
      "step": 72
    },
    {
      "DPO Loss": 5.508823305986437e-06,
      "Negative Geometric Mean": -12.17880211034751,
      "Negative prob": -12.17880211034751,
      "Normal Loss": 0.18863847851753235,
      "Normal prob": -0.18863847851753235,
      "Positive Loss": 0.011334001086652279,
      "Positive prob": -0.011334001086652279,
      "epoch": 2.1492537313432836,
      "step": 72
    },
    {
      "epoch": 2.1791044776119404,
      "grad_norm": 6.60404865468319,
      "learning_rate": 1.340909090909091e-06,
      "loss": 0.3371,
      "step": 73
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2698725759983063,
      "Normal prob": -0.2698725759983063,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.1791044776119404,
      "step": 73
    },
    {
      "DPO Loss": 2.5343320997566906e-06,
      "Negative Geometric Mean": -13.084115531452266,
      "Negative prob": -13.084115531452266,
      "Normal Loss": 0.3101830780506134,
      "Normal prob": -0.3101830780506134,
      "Positive Loss": 0.007303276099264622,
      "Positive prob": -0.007303276099264622,
      "epoch": 2.1791044776119404,
      "step": 73
    },
    {
      "epoch": 2.208955223880597,
      "grad_norm": 7.537056674857057,
      "learning_rate": 1.3181818181818182e-06,
      "loss": 0.3896,
      "step": 74
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2088720202445984,
      "Normal prob": -0.2088720202445984,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.208955223880597,
      "step": 74
    },
    {
      "DPO Loss": 6.722595604209246e-06,
      "Negative Geometric Mean": -12.173159354073661,
      "Negative prob": -12.173159354073661,
      "Normal Loss": 0.40398481488227844,
      "Normal prob": -0.40398481488227844,
      "Positive Loss": 0.01838095672428608,
      "Positive prob": -0.01838095672428608,
      "epoch": 2.208955223880597,
      "step": 74
    },
    {
      "epoch": 2.2388059701492535,
      "grad_norm": 7.724539990601786,
      "learning_rate": 1.2954545454545455e-06,
      "loss": 0.3009,
      "step": 75
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.48262086510658264,
      "Normal prob": -0.48262086510658264,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.2388059701492535,
      "step": 75
    },
    {
      "DPO Loss": 5.197786322988637e-07,
      "Negative Geometric Mean": -14.51572339888308,
      "Negative prob": -14.51572339888308,
      "Normal Loss": 0.23035627603530884,
      "Normal prob": -0.23035627603530884,
      "Positive Loss": 0.008795712143182755,
      "Positive prob": -0.008795712143182755,
      "epoch": 2.2388059701492535,
      "step": 75
    },
    {
      "epoch": 2.2686567164179103,
      "grad_norm": 8.221187128676613,
      "learning_rate": 1.2727272727272728e-06,
      "loss": 0.3589,
      "step": 76
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2785874009132385,
      "Normal prob": -0.2785874009132385,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.2686567164179103,
      "step": 76
    },
    {
      "DPO Loss": 1.621094342365068e-06,
      "Negative Geometric Mean": -13.028692859266869,
      "Negative prob": -13.028692859266869,
      "Normal Loss": 0.29848527908325195,
      "Normal prob": -0.29848527908325195,
      "Positive Loss": 0.004369077738374472,
      "Positive prob": -0.004369077738374472,
      "epoch": 2.2686567164179103,
      "step": 76
    },
    {
      "epoch": 2.298507462686567,
      "grad_norm": 6.89968090148801,
      "learning_rate": 1.25e-06,
      "loss": 0.3104,
      "step": 77
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.31930315494537354,
      "Normal prob": -0.31930315494537354,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.298507462686567,
      "step": 77
    },
    {
      "DPO Loss": 1.3040399279024244e-05,
      "Negative Geometric Mean": -11.366265677550448,
      "Negative prob": -11.366265677550448,
      "Normal Loss": 0.4552519917488098,
      "Normal prob": -0.4552519917488098,
      "Positive Loss": 0.020085470750927925,
      "Positive prob": -0.020085470750927925,
      "epoch": 2.298507462686567,
      "step": 77
    },
    {
      "epoch": 2.328358208955224,
      "grad_norm": 7.22395223128197,
      "learning_rate": 1.2272727272727274e-06,
      "loss": 0.3699,
      "step": 78
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4527321457862854,
      "Normal prob": -0.4527321457862854,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.328358208955224,
      "step": 78
    },
    {
      "DPO Loss": 3.5797003005450865e-06,
      "Negative Geometric Mean": -12.924953185405927,
      "Negative prob": -12.924953185405927,
      "Normal Loss": 0.49810460209846497,
      "Normal prob": -0.49810460209846497,
      "Positive Loss": 0.0035452607553452253,
      "Positive prob": -0.0035452607553452253,
      "epoch": 2.328358208955224,
      "step": 78
    },
    {
      "epoch": 2.3582089552238807,
      "grad_norm": 7.0300487933358,
      "learning_rate": 1.2045454545454545e-06,
      "loss": 0.3254,
      "step": 79
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3027646243572235,
      "Normal prob": -0.3027646243572235,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.3582089552238807,
      "step": 79
    },
    {
      "DPO Loss": 5.243361513598499e-06,
      "Negative Geometric Mean": -12.248686441906308,
      "Negative prob": -12.248686441906308,
      "Normal Loss": 0.19559913873672485,
      "Normal prob": -0.19559913873672485,
      "Positive Loss": 0.0036265316884964705,
      "Positive prob": -0.0036265316884964705,
      "epoch": 2.3582089552238807,
      "step": 79
    },
    {
      "epoch": 2.388059701492537,
      "grad_norm": 7.018808301104353,
      "learning_rate": 1.1818181818181818e-06,
      "loss": 0.2924,
      "step": 80
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.37363290786743164,
      "Normal prob": -0.37363290786743164,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.388059701492537,
      "step": 80
    },
    {
      "DPO Loss": 8.039128102474587e-06,
      "Negative Geometric Mean": -12.245501740608809,
      "Negative prob": -12.245501740608809,
      "Normal Loss": 0.38694456219673157,
      "Normal prob": -0.38694456219673157,
      "Positive Loss": 0.007913284935057163,
      "Positive prob": -0.007913284935057163,
      "epoch": 2.388059701492537,
      "step": 80
    },
    {
      "epoch": 2.417910447761194,
      "grad_norm": 7.1316719605682595,
      "learning_rate": 1.159090909090909e-06,
      "loss": 0.373,
      "step": 81
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.23960407078266144,
      "Normal prob": -0.23960407078266144,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.417910447761194,
      "step": 81
    },
    {
      "DPO Loss": 3.643317578642959e-06,
      "Negative Geometric Mean": -12.694272748161765,
      "Negative prob": -12.694272748161765,
      "Normal Loss": 0.3460986912250519,
      "Normal prob": -0.3460986912250519,
      "Positive Loss": 0.03607124090194702,
      "Positive prob": -0.03607124090194702,
      "epoch": 2.417910447761194,
      "step": 81
    },
    {
      "epoch": 2.4477611940298507,
      "grad_norm": 6.568519556302587,
      "learning_rate": 1.1363636363636364e-06,
      "loss": 0.2968,
      "step": 82
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3786263167858124,
      "Normal prob": -0.3786263167858124,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.4477611940298507,
      "step": 82
    },
    {
      "DPO Loss": 1.17810282746522e-05,
      "Negative Geometric Mean": -11.290989731297348,
      "Negative prob": -11.290989731297348,
      "Normal Loss": 0.3233850598335266,
      "Normal prob": -0.3233850598335266,
      "Positive Loss": 0.014756398275494576,
      "Positive prob": -0.014756398275494576,
      "epoch": 2.4477611940298507,
      "step": 82
    },
    {
      "epoch": 2.4776119402985075,
      "grad_norm": 6.961788241099841,
      "learning_rate": 1.1136363636363637e-06,
      "loss": 0.3067,
      "step": 83
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.7298503518104553,
      "Normal prob": -0.7298503518104553,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.4776119402985075,
      "step": 83
    },
    {
      "DPO Loss": 6.489746401144139e-06,
      "Negative Geometric Mean": -12.0409423828125,
      "Negative prob": -12.0409423828125,
      "Normal Loss": 0.36162418127059937,
      "Normal prob": -0.36162418127059937,
      "Positive Loss": 0.007005380000919104,
      "Positive prob": -0.007005380000919104,
      "epoch": 2.4776119402985075,
      "step": 83
    },
    {
      "epoch": 2.5074626865671643,
      "grad_norm": 6.528351208906881,
      "learning_rate": 1.090909090909091e-06,
      "loss": 0.4822,
      "step": 84
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.43608808517456055,
      "Normal prob": -0.43608808517456055,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.5074626865671643,
      "step": 84
    },
    {
      "DPO Loss": 1.8647181536166908e-06,
      "Negative Geometric Mean": -13.310558063113747,
      "Negative prob": -13.310558063113747,
      "Normal Loss": 0.2762463092803955,
      "Normal prob": -0.2762463092803955,
      "Positive Loss": 0.015207285061478615,
      "Positive prob": -0.015207285061478615,
      "epoch": 2.5074626865671643,
      "step": 84
    },
    {
      "epoch": 2.5373134328358207,
      "grad_norm": 6.696386369118086,
      "learning_rate": 1.0681818181818183e-06,
      "loss": 0.3106,
      "step": 85
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3587005138397217,
      "Normal prob": -0.3587005138397217,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.5373134328358207,
      "step": 85
    },
    {
      "DPO Loss": 1.0392724887777463e-05,
      "Negative Geometric Mean": -11.663321547420965,
      "Negative prob": -11.663321547420965,
      "Normal Loss": 0.38271617889404297,
      "Normal prob": -0.38271617889404297,
      "Positive Loss": 0.007094533648341894,
      "Positive prob": -0.007094533648341894,
      "epoch": 2.5373134328358207,
      "step": 85
    },
    {
      "epoch": 2.5671641791044775,
      "grad_norm": 7.213029254290765,
      "learning_rate": 1.0454545454545456e-06,
      "loss": 0.317,
      "step": 86
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3641352355480194,
      "Normal prob": -0.3641352355480194,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.5671641791044775,
      "step": 86
    },
    {
      "DPO Loss": 3.5987715729513327e-06,
      "Negative Geometric Mean": -12.57204106168927,
      "Negative prob": -12.57204106168927,
      "Normal Loss": 0.46394774317741394,
      "Normal prob": -0.46394774317741394,
      "Positive Loss": 0.0050806887447834015,
      "Positive prob": -0.0050806887447834015,
      "epoch": 2.5671641791044775,
      "step": 86
    },
    {
      "epoch": 2.5970149253731343,
      "grad_norm": 7.901045462084173,
      "learning_rate": 1.0227272727272727e-06,
      "loss": 0.3702,
      "step": 87
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.38809868693351746,
      "Normal prob": -0.38809868693351746,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.5970149253731343,
      "step": 87
    },
    {
      "DPO Loss": 1.6651211340411204e-06,
      "Negative Geometric Mean": -13.372305265036962,
      "Negative prob": -13.372305265036962,
      "Normal Loss": 0.27421802282333374,
      "Normal prob": -0.27421802282333374,
      "Positive Loss": 0.017523737624287605,
      "Positive prob": -0.017523737624287605,
      "epoch": 2.5970149253731343,
      "step": 87
    },
    {
      "epoch": 2.626865671641791,
      "grad_norm": 6.883433596486567,
      "learning_rate": 1e-06,
      "loss": 0.3336,
      "step": 88
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.28301262855529785,
      "Normal prob": -0.28301262855529785,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.626865671641791,
      "step": 88
    },
    {
      "DPO Loss": 2.9454008504157696e-06,
      "Negative Geometric Mean": -12.71242241010274,
      "Negative prob": -12.71242241010274,
      "Normal Loss": 0.35078540444374084,
      "Normal prob": -0.35078540444374084,
      "Positive Loss": 0.01793888583779335,
      "Positive prob": -0.01793888583779335,
      "epoch": 2.626865671641791,
      "step": 88
    },
    {
      "epoch": 2.656716417910448,
      "grad_norm": 6.603176465896816,
      "learning_rate": 9.772727272727273e-07,
      "loss": 0.4153,
      "step": 89
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.29014265537261963,
      "Normal prob": -0.29014265537261963,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.656716417910448,
      "step": 89
    },
    {
      "DPO Loss": 1.4884178069432536e-05,
      "Negative Geometric Mean": -11.291460420642494,
      "Negative prob": -11.291460420642494,
      "Normal Loss": 0.27552318572998047,
      "Normal prob": -0.27552318572998047,
      "Positive Loss": 0.006887962110340595,
      "Positive prob": -0.006887962110340595,
      "epoch": 2.656716417910448,
      "step": 89
    },
    {
      "epoch": 2.6865671641791042,
      "grad_norm": 7.071652347635012,
      "learning_rate": 9.545454545454546e-07,
      "loss": 0.3525,
      "step": 90
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3731546103954315,
      "Normal prob": -0.3731546103954315,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.6865671641791042,
      "step": 90
    },
    {
      "DPO Loss": 6.442647626957985e-06,
      "Negative Geometric Mean": -12.235858669051204,
      "Negative prob": -12.235858669051204,
      "Normal Loss": 0.21569418907165527,
      "Normal prob": -0.21569418907165527,
      "Positive Loss": 0.005633717868477106,
      "Positive prob": -0.005633717868477106,
      "epoch": 2.6865671641791042,
      "step": 90
    },
    {
      "epoch": 2.716417910447761,
      "grad_norm": 6.08004163712123,
      "learning_rate": 9.318181818181818e-07,
      "loss": 0.3038,
      "step": 91
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.35742098093032837,
      "Normal prob": -0.35742098093032837,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.716417910447761,
      "step": 91
    },
    {
      "DPO Loss": 4.149841651615268e-06,
      "Negative Geometric Mean": -12.598418855144757,
      "Negative prob": -12.598418855144757,
      "Normal Loss": 0.28535205125808716,
      "Normal prob": -0.28535205125808716,
      "Positive Loss": 0.012952926568686962,
      "Positive prob": -0.012952926568686962,
      "epoch": 2.716417910447761,
      "step": 91
    },
    {
      "epoch": 2.746268656716418,
      "grad_norm": 7.098164063144904,
      "learning_rate": 9.090909090909091e-07,
      "loss": 0.3625,
      "step": 92
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.28534939885139465,
      "Normal prob": -0.28534939885139465,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.746268656716418,
      "step": 92
    },
    {
      "DPO Loss": 1.2248438490094142e-06,
      "Negative Geometric Mean": -13.854903100242078,
      "Negative prob": -13.854903100242078,
      "Normal Loss": 0.36843106150627136,
      "Normal prob": -0.36843106150627136,
      "Positive Loss": 0.03612969443202019,
      "Positive prob": -0.03612969443202019,
      "epoch": 2.746268656716418,
      "step": 92
    },
    {
      "epoch": 2.7761194029850746,
      "grad_norm": 7.081778856883454,
      "learning_rate": 8.863636363636364e-07,
      "loss": 0.4371,
      "step": 93
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.4569069743156433,
      "Normal prob": -0.4569069743156433,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.7761194029850746,
      "step": 93
    },
    {
      "DPO Loss": 4.104862759699108e-06,
      "Negative Geometric Mean": -12.369599921518265,
      "Negative prob": -12.369599921518265,
      "Normal Loss": 0.2255462110042572,
      "Normal prob": -0.2255462110042572,
      "Positive Loss": 0.018570953980088234,
      "Positive prob": -0.018570953980088234,
      "epoch": 2.7761194029850746,
      "step": 93
    },
    {
      "epoch": 2.8059701492537314,
      "grad_norm": 6.9825157063188374,
      "learning_rate": 8.636363636363637e-07,
      "loss": 0.3096,
      "step": 94
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2608332633972168,
      "Normal prob": -0.2608332633972168,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.8059701492537314,
      "step": 94
    },
    {
      "DPO Loss": 1.6469150536061094e-06,
      "Negative Geometric Mean": -13.248110250737463,
      "Negative prob": -13.248110250737463,
      "Normal Loss": 0.24679048359394073,
      "Normal prob": -0.24679048359394073,
      "Positive Loss": 0.014129209332168102,
      "Positive prob": -0.014129209332168102,
      "epoch": 2.8059701492537314,
      "step": 94
    },
    {
      "epoch": 2.835820895522388,
      "grad_norm": 7.604649982159979,
      "learning_rate": 8.409090909090908e-07,
      "loss": 0.2674,
      "step": 95
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2900543212890625,
      "Normal prob": -0.2900543212890625,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.835820895522388,
      "step": 95
    },
    {
      "DPO Loss": 7.456183395726831e-07,
      "Negative Geometric Mean": -13.86903901734104,
      "Negative prob": -13.86903901734104,
      "Normal Loss": 0.4645146429538727,
      "Normal prob": -0.4645146429538727,
      "Positive Loss": 0.006549107376486063,
      "Positive prob": -0.006549107376486063,
      "epoch": 2.835820895522388,
      "step": 95
    },
    {
      "epoch": 2.8656716417910446,
      "grad_norm": 6.428480514761495,
      "learning_rate": 8.181818181818181e-07,
      "loss": 0.3561,
      "step": 96
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.17966699600219727,
      "Normal prob": -0.17966699600219727,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.8656716417910446,
      "step": 96
    },
    {
      "DPO Loss": 1.1826854588610623e-05,
      "Negative Geometric Mean": -11.482138813405797,
      "Negative prob": -11.482138813405797,
      "Normal Loss": 0.4035150110721588,
      "Normal prob": -0.4035150110721588,
      "Positive Loss": 0.01260466780513525,
      "Positive prob": -0.01260466780513525,
      "epoch": 2.8656716417910446,
      "step": 96
    },
    {
      "epoch": 2.8955223880597014,
      "grad_norm": 6.355093862289104,
      "learning_rate": 7.954545454545454e-07,
      "loss": 0.3552,
      "step": 97
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.1942460834980011,
      "Normal prob": -0.1942460834980011,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.8955223880597014,
      "step": 97
    },
    {
      "DPO Loss": 2.1722275431802666e-06,
      "Negative Geometric Mean": -12.907205766876064,
      "Negative prob": -12.907205766876064,
      "Normal Loss": 0.3104533553123474,
      "Normal prob": -0.3104533553123474,
      "Positive Loss": 0.004998633172363043,
      "Positive prob": -0.004998633172363043,
      "epoch": 2.8955223880597014,
      "step": 97
    },
    {
      "epoch": 2.925373134328358,
      "grad_norm": 6.623833463639339,
      "learning_rate": 7.727272727272727e-07,
      "loss": 0.3507,
      "step": 98
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.33913183212280273,
      "Normal prob": -0.33913183212280273,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.925373134328358,
      "step": 98
    },
    {
      "DPO Loss": 1.1818778170094944e-06,
      "Negative Geometric Mean": -13.596246585154585,
      "Negative prob": -13.596246585154585,
      "Normal Loss": 0.3668951988220215,
      "Normal prob": -0.3668951988220215,
      "Positive Loss": 0.016438201069831848,
      "Positive prob": -0.016438201069831848,
      "epoch": 2.925373134328358,
      "step": 98
    },
    {
      "epoch": 2.955223880597015,
      "grad_norm": 7.342348492585064,
      "learning_rate": 7.5e-07,
      "loss": 0.4162,
      "step": 99
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2540174424648285,
      "Normal prob": -0.2540174424648285,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.955223880597015,
      "step": 99
    },
    {
      "DPO Loss": 2.3274892548031074e-06,
      "Negative Geometric Mean": -13.38752170138889,
      "Negative prob": -13.38752170138889,
      "Normal Loss": 0.6933973431587219,
      "Normal prob": -0.6933973431587219,
      "Positive Loss": 0.004921761341392994,
      "Positive prob": -0.004921761341392994,
      "epoch": 2.955223880597015,
      "step": 99
    },
    {
      "epoch": 2.9850746268656714,
      "grad_norm": 6.242023928985393,
      "learning_rate": 7.272727272727273e-07,
      "loss": 0.4423,
      "step": 100
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.32996082305908203,
      "Normal prob": -0.32996082305908203,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.9850746268656714,
      "step": 100
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.27658382058143616,
      "Normal prob": -0.27658382058143616,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 2.9850746268656714,
      "step": 100
    },
    {
      "epoch": 3.014925373134328,
      "grad_norm": 5.853608572027528,
      "learning_rate": 7.045454545454546e-07,
      "loss": 0.288,
      "step": 101
    },
    {
      "DPO Loss": 1.1678178546410005e-06,
      "Negative Geometric Mean": -14.891405087425595,
      "Negative prob": -14.891405087425595,
      "Normal Loss": 0.11027539521455765,
      "Normal prob": -0.11027539521455765,
      "Positive Loss": 0.0027892631478607655,
      "Positive prob": -0.0027892631478607655,
      "epoch": 3.014925373134328,
      "step": 101
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.26463809609413147,
      "Normal prob": -0.26463809609413147,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.014925373134328,
      "step": 101
    },
    {
      "epoch": 3.044776119402985,
      "grad_norm": 6.514265106044286,
      "learning_rate": 6.818181818181818e-07,
      "loss": 0.1912,
      "step": 102
    },
    {
      "DPO Loss": 3.6430315872713267e-06,
      "Negative Geometric Mean": -13.001615084134615,
      "Negative prob": -13.001615084134615,
      "Normal Loss": 0.10679034143686295,
      "Normal prob": -0.10679034143686295,
      "Positive Loss": 0.01767848990857601,
      "Positive prob": -0.01767848990857601,
      "epoch": 3.044776119402985,
      "step": 102
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.1798650622367859,
      "Normal prob": -0.1798650622367859,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.044776119402985,
      "step": 102
    },
    {
      "epoch": 3.074626865671642,
      "grad_norm": 6.098513301658777,
      "learning_rate": 6.590909090909091e-07,
      "loss": 0.2014,
      "step": 103
    },
    {
      "DPO Loss": 1.1857304744373281e-05,
      "Negative Geometric Mean": -11.364407111528822,
      "Negative prob": -11.364407111528822,
      "Normal Loss": 0.5280313491821289,
      "Normal prob": -0.5280313491821289,
      "Positive Loss": 0.0045397402718663216,
      "Positive prob": -0.0045397402718663216,
      "epoch": 3.074626865671642,
      "step": 103
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.12902340292930603,
      "Normal prob": -0.12902340292930603,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.074626865671642,
      "step": 103
    },
    {
      "epoch": 3.1044776119402986,
      "grad_norm": 6.268435906008225,
      "learning_rate": 6.363636363636364e-07,
      "loss": 0.2413,
      "step": 104
    },
    {
      "DPO Loss": 8.258820908422388e-07,
      "Negative Geometric Mean": -13.974816351361241,
      "Negative prob": -13.974816351361241,
      "Normal Loss": 0.08596272766590118,
      "Normal prob": -0.08596272766590118,
      "Positive Loss": 0.0037321026902645826,
      "Positive prob": -0.0037321026902645826,
      "epoch": 3.1044776119402986,
      "step": 104
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.12673968076705933,
      "Normal prob": -0.12673968076705933,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.1044776119402986,
      "step": 104
    },
    {
      "epoch": 3.1343283582089554,
      "grad_norm": 4.849865946932611,
      "learning_rate": 6.136363636363637e-07,
      "loss": 0.2016,
      "step": 105
    },
    {
      "DPO Loss": 1.2510054247133794e-05,
      "Negative Geometric Mean": -11.465228908237913,
      "Negative prob": -11.465228908237913,
      "Normal Loss": 0.35748380422592163,
      "Normal prob": -0.35748380422592163,
      "Positive Loss": 0.0027046226896345615,
      "Positive prob": -0.0027046226896345615,
      "epoch": 3.1343283582089554,
      "step": 105
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2695090174674988,
      "Normal prob": -0.2695090174674988,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.1343283582089554,
      "step": 105
    },
    {
      "epoch": 3.1641791044776117,
      "grad_norm": 5.314522862984474,
      "learning_rate": 5.909090909090909e-07,
      "loss": 0.3061,
      "step": 106
    },
    {
      "DPO Loss": 1.1451636416948107e-06,
      "Negative Geometric Mean": -13.922169000330106,
      "Negative prob": -13.922169000330106,
      "Normal Loss": 0.15261346101760864,
      "Normal prob": -0.15261346101760864,
      "Positive Loss": 0.004130078945308924,
      "Positive prob": -0.004130078945308924,
      "epoch": 3.1641791044776117,
      "step": 106
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.3225187063217163,
      "Normal prob": -0.3225187063217163,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.1641791044776117,
      "step": 106
    },
    {
      "epoch": 3.1940298507462686,
      "grad_norm": 5.845924095415361,
      "learning_rate": 5.681818181818182e-07,
      "loss": 0.2219,
      "step": 107
    },
    {
      "DPO Loss": 3.406975256320534e-06,
      "Negative Geometric Mean": -13.250364491637324,
      "Negative prob": -13.250364491637324,
      "Normal Loss": 0.2123008817434311,
      "Normal prob": -0.2123008817434311,
      "Positive Loss": 0.00209601828828454,
      "Positive prob": -0.00209601828828454,
      "epoch": 3.1940298507462686,
      "step": 107
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2501071095466614,
      "Normal prob": -0.2501071095466614,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.1940298507462686,
      "step": 107
    },
    {
      "epoch": 3.2238805970149254,
      "grad_norm": 6.273812820779774,
      "learning_rate": 5.454545454545455e-07,
      "loss": 0.2085,
      "step": 108
    },
    {
      "DPO Loss": 7.219691741892465e-06,
      "Negative Geometric Mean": -12.184994006283068,
      "Negative prob": -12.184994006283068,
      "Normal Loss": 0.11331921815872192,
      "Normal prob": -0.11331921815872192,
      "Positive Loss": 0.00535797793418169,
      "Positive prob": -0.00535797793418169,
      "epoch": 3.2238805970149254,
      "step": 108
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2601730525493622,
      "Normal prob": -0.2601730525493622,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.2238805970149254,
      "step": 108
    },
    {
      "epoch": 3.253731343283582,
      "grad_norm": 6.61609605527567,
      "learning_rate": 5.227272727272728e-07,
      "loss": 0.2738,
      "step": 109
    },
    {
      "DPO Loss": 3.8013957323267827e-06,
      "Negative Geometric Mean": -12.432244078240172,
      "Negative prob": -12.432244078240172,
      "Normal Loss": 0.212859645485878,
      "Normal prob": -0.212859645485878,
      "Positive Loss": 0.0058334325440227985,
      "Positive prob": -0.0058334325440227985,
      "epoch": 3.253731343283582,
      "step": 109
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.1951064020395279,
      "Normal prob": -0.1951064020395279,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.253731343283582,
      "step": 109
    },
    {
      "epoch": 3.283582089552239,
      "grad_norm": 6.461685783109346,
      "learning_rate": 5e-07,
      "loss": 0.1872,
      "step": 110
    },
    {
      "DPO Loss": 9.760423619643666e-07,
      "Negative Geometric Mean": -13.36294397566719,
      "Negative prob": -13.36294397566719,
      "Normal Loss": 0.16994960606098175,
      "Normal prob": -0.16994960606098175,
      "Positive Loss": 0.007101885508745909,
      "Positive prob": -0.007101885508745909,
      "epoch": 3.283582089552239,
      "step": 110
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.25234583020210266,
      "Normal prob": -0.25234583020210266,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.283582089552239,
      "step": 110
    },
    {
      "epoch": 3.3134328358208958,
      "grad_norm": 6.064062487418674,
      "learning_rate": 4.772727272727273e-07,
      "loss": 0.1877,
      "step": 111
    },
    {
      "DPO Loss": 3.0380582299826617e-06,
      "Negative Geometric Mean": -12.93929797021028,
      "Negative prob": -12.93929797021028,
      "Normal Loss": 0.07496587187051773,
      "Normal prob": -0.07496587187051773,
      "Positive Loss": 0.003302493365481496,
      "Positive prob": -0.003302493365481496,
      "epoch": 3.3134328358208958,
      "step": 111
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.116237573325634,
      "Normal prob": -0.116237573325634,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.3134328358208958,
      "step": 111
    },
    {
      "epoch": 3.343283582089552,
      "grad_norm": 11.774507449917868,
      "learning_rate": 4.5454545454545457e-07,
      "loss": 0.1455,
      "step": 112
    },
    {
      "DPO Loss": 1.8040673343906892e-06,
      "Negative Geometric Mean": -13.262591667895046,
      "Negative prob": -13.262591667895046,
      "Normal Loss": 0.20686665177345276,
      "Normal prob": -0.20686665177345276,
      "Positive Loss": 0.0036297321785241365,
      "Positive prob": -0.0036297321785241365,
      "epoch": 3.343283582089552,
      "step": 112
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.07100074738264084,
      "Normal prob": -0.07100074738264084,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.343283582089552,
      "step": 112
    },
    {
      "epoch": 3.373134328358209,
      "grad_norm": 6.197973269249537,
      "learning_rate": 4.3181818181818187e-07,
      "loss": 0.2737,
      "step": 113
    },
    {
      "DPO Loss": 1.8399912201802113e-05,
      "Negative Geometric Mean": -11.161076035610465,
      "Negative prob": -11.161076035610465,
      "Normal Loss": 0.3017271161079407,
      "Normal prob": -0.3017271161079407,
      "Positive Loss": 0.0018219746416434646,
      "Positive prob": -0.0018219746416434646,
      "epoch": 3.373134328358209,
      "step": 113
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.40800532698631287,
      "Normal prob": -0.40800532698631287,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.373134328358209,
      "step": 113
    },
    {
      "epoch": 3.4029850746268657,
      "grad_norm": 6.686699543045222,
      "learning_rate": 4.0909090909090906e-07,
      "loss": 0.2495,
      "step": 114
    },
    {
      "DPO Loss": 7.636819721194287e-06,
      "Negative Geometric Mean": -11.901342007076794,
      "Negative prob": -11.901342007076794,
      "Normal Loss": 0.12182455509901047,
      "Normal prob": -0.12182455509901047,
      "Positive Loss": 0.008607598952949047,
      "Positive prob": -0.008607598952949047,
      "epoch": 3.4029850746268657,
      "step": 114
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.18401654064655304,
      "Normal prob": -0.18401654064655304,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.4029850746268657,
      "step": 114
    },
    {
      "epoch": 3.4328358208955225,
      "grad_norm": 6.81794821888112,
      "learning_rate": 3.8636363636363636e-07,
      "loss": 0.2007,
      "step": 115
    },
    {
      "DPO Loss": 6.554748941648e-06,
      "Negative Geometric Mean": -12.335026873289234,
      "Negative prob": -12.335026873289234,
      "Normal Loss": 0.21853935718536377,
      "Normal prob": -0.21853935718536377,
      "Positive Loss": 0.004862755537033081,
      "Positive prob": -0.004862755537033081,
      "epoch": 3.4328358208955225,
      "step": 115
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.135187566280365,
      "Normal prob": -0.135187566280365,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.4328358208955225,
      "step": 115
    },
    {
      "epoch": 3.4626865671641793,
      "grad_norm": 6.189730848953201,
      "learning_rate": 3.6363636363636366e-07,
      "loss": 0.2086,
      "step": 116
    },
    {
      "DPO Loss": 3.6050653288985906e-06,
      "Negative Geometric Mean": -12.796296909877233,
      "Negative prob": -12.796296909877233,
      "Normal Loss": 0.2358456403017044,
      "Normal prob": -0.2358456403017044,
      "Positive Loss": 0.010835876688361168,
      "Positive prob": -0.010835876688361168,
      "epoch": 3.4626865671641793,
      "step": 116
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.14767657220363617,
      "Normal prob": -0.14767657220363617,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.4626865671641793,
      "step": 116
    },
    {
      "epoch": 3.4925373134328357,
      "grad_norm": 6.979155772945575,
      "learning_rate": 3.409090909090909e-07,
      "loss": 0.2849,
      "step": 117
    },
    {
      "DPO Loss": 6.702416418876966e-06,
      "Negative Geometric Mean": -12.413108648255815,
      "Negative prob": -12.413108648255815,
      "Normal Loss": 0.14713706076145172,
      "Normal prob": -0.14713706076145172,
      "Positive Loss": 0.003462533000856638,
      "Positive prob": -0.003462533000856638,
      "epoch": 3.4925373134328357,
      "step": 117
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.23745860159397125,
      "Normal prob": -0.23745860159397125,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.4925373134328357,
      "step": 117
    },
    {
      "epoch": 3.5223880597014925,
      "grad_norm": 6.728854419168043,
      "learning_rate": 3.181818181818182e-07,
      "loss": 0.1677,
      "step": 118
    },
    {
      "DPO Loss": 2.470218665968806e-06,
      "Negative Geometric Mean": -13.20369715379494,
      "Negative prob": -13.20369715379494,
      "Normal Loss": 0.4334864020347595,
      "Normal prob": -0.4334864020347595,
      "Positive Loss": 0.005433392245322466,
      "Positive prob": -0.005433392245322466,
      "epoch": 3.5223880597014925,
      "step": 118
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.1629062443971634,
      "Normal prob": -0.1629062443971634,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.5223880597014925,
      "step": 118
    },
    {
      "epoch": 3.5522388059701493,
      "grad_norm": 5.9093975782845645,
      "learning_rate": 2.9545454545454545e-07,
      "loss": 0.2375,
      "step": 119
    },
    {
      "DPO Loss": 1.9495445800859506e-06,
      "Negative Geometric Mean": -13.439311124840561,
      "Negative prob": -13.439311124840561,
      "Normal Loss": 0.3102337718009949,
      "Normal prob": -0.3102337718009949,
      "Positive Loss": 0.001397938933223486,
      "Positive prob": -0.001397938933223486,
      "epoch": 3.5522388059701493,
      "step": 119
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.10538414120674133,
      "Normal prob": -0.10538414120674133,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.5522388059701493,
      "step": 119
    },
    {
      "epoch": 3.582089552238806,
      "grad_norm": 5.432045886830493,
      "learning_rate": 2.7272727272727274e-07,
      "loss": 0.1749,
      "step": 120
    },
    {
      "DPO Loss": 2.111671823116432e-05,
      "Negative Geometric Mean": -11.482684536637931,
      "Negative prob": -11.482684536637931,
      "Normal Loss": 0.09432564675807953,
      "Normal prob": -0.09432564675807953,
      "Positive Loss": 0.003968758508563042,
      "Positive prob": -0.003968758508563042,
      "epoch": 3.582089552238806,
      "step": 120
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2578660249710083,
      "Normal prob": -0.2578660249710083,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.582089552238806,
      "step": 120
    },
    {
      "epoch": 3.611940298507463,
      "grad_norm": 6.329624233904299,
      "learning_rate": 2.5e-07,
      "loss": 0.1958,
      "step": 121
    },
    {
      "DPO Loss": 2.2736615595795564e-06,
      "Negative Geometric Mean": -13.00193465573286,
      "Negative prob": -13.00193465573286,
      "Normal Loss": 0.11790954321622849,
      "Normal prob": -0.11790954321622849,
      "Positive Loss": 0.015944618731737137,
      "Positive prob": -0.015944618731737137,
      "epoch": 3.611940298507463,
      "step": 121
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.2980431020259857,
      "Normal prob": -0.2980431020259857,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.611940298507463,
      "step": 121
    },
    {
      "epoch": 3.6417910447761193,
      "grad_norm": 6.390125283101109,
      "learning_rate": 2.2727272727272729e-07,
      "loss": 0.2578,
      "step": 122
    },
    {
      "DPO Loss": 1.8224405365341362e-06,
      "Negative Geometric Mean": -13.443804791865459,
      "Negative prob": -13.443804791865459,
      "Normal Loss": 0.2082529067993164,
      "Normal prob": -0.2082529067993164,
      "Positive Loss": 0.0020329623948782682,
      "Positive prob": -0.0020329623948782682,
      "epoch": 3.6417910447761193,
      "step": 122
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.27499350905418396,
      "Normal prob": -0.27499350905418396,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.6417910447761193,
      "step": 122
    },
    {
      "epoch": 3.671641791044776,
      "grad_norm": 7.334639331815002,
      "learning_rate": 2.0454545454545453e-07,
      "loss": 0.1928,
      "step": 123
    },
    {
      "DPO Loss": 3.887408166527688e-06,
      "Negative Geometric Mean": -12.602550216132615,
      "Negative prob": -12.602550216132615,
      "Normal Loss": 0.3751141130924225,
      "Normal prob": -0.3751141130924225,
      "Positive Loss": 0.0016299609560519457,
      "Positive prob": -0.0016299609560519457,
      "epoch": 3.671641791044776,
      "step": 123
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.14575666189193726,
      "Normal prob": -0.14575666189193726,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.671641791044776,
      "step": 123
    },
    {
      "epoch": 3.701492537313433,
      "grad_norm": 5.602697068663161,
      "learning_rate": 1.8181818181818183e-07,
      "loss": 0.1898,
      "step": 124
    },
    {
      "DPO Loss": 1.1130948677477009e-06,
      "Negative Geometric Mean": -13.74802903824201,
      "Negative prob": -13.74802903824201,
      "Normal Loss": 0.09506483376026154,
      "Normal prob": -0.09506483376026154,
      "Positive Loss": 0.0032382213976234198,
      "Positive prob": -0.0032382213976234198,
      "epoch": 3.701492537313433,
      "step": 124
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.15355288982391357,
      "Normal prob": -0.15355288982391357,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.701492537313433,
      "step": 124
    },
    {
      "epoch": 3.7313432835820897,
      "grad_norm": 7.94396763225081,
      "learning_rate": 1.590909090909091e-07,
      "loss": 0.153,
      "step": 125
    },
    {
      "DPO Loss": 4.4835976933222324e-07,
      "Negative Geometric Mean": -14.556803077741021,
      "Negative prob": -14.556803077741021,
      "Normal Loss": 0.09771548211574554,
      "Normal prob": -0.09771548211574554,
      "Positive Loss": 0.012089760042726994,
      "Positive prob": -0.012089760042726994,
      "epoch": 3.7313432835820897,
      "step": 125
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.17557981610298157,
      "Normal prob": -0.17557981610298157,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.7313432835820897,
      "step": 125
    },
    {
      "epoch": 3.7611940298507465,
      "grad_norm": 5.746760679085967,
      "learning_rate": 1.3636363636363637e-07,
      "loss": 0.2027,
      "step": 126
    },
    {
      "DPO Loss": 2.5731311695920285e-06,
      "Negative Geometric Mean": -12.94003257909751,
      "Negative prob": -12.94003257909751,
      "Normal Loss": 0.2374420166015625,
      "Normal prob": -0.2374420166015625,
      "Positive Loss": 0.006095151882618666,
      "Positive prob": -0.006095151882618666,
      "epoch": 3.7611940298507465,
      "step": 126
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.12284944206476212,
      "Normal prob": -0.12284944206476212,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.7611940298507465,
      "step": 126
    },
    {
      "epoch": 3.791044776119403,
      "grad_norm": 6.172054742054878,
      "learning_rate": 1.1363636363636364e-07,
      "loss": 0.1587,
      "step": 127
    },
    {
      "DPO Loss": 3.012714219508236e-06,
      "Negative Geometric Mean": -12.808327907986111,
      "Negative prob": -12.808327907986111,
      "Normal Loss": 0.07416192442178726,
      "Normal prob": -0.07416192442178726,
      "Positive Loss": 0.0024134027771651745,
      "Positive prob": -0.0024134027771651745,
      "epoch": 3.791044776119403,
      "step": 127
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.292096883058548,
      "Normal prob": -0.292096883058548,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.791044776119403,
      "step": 127
    },
    {
      "epoch": 3.8208955223880596,
      "grad_norm": 6.689741596768201,
      "learning_rate": 9.090909090909091e-08,
      "loss": 0.1959,
      "step": 128
    },
    {
      "DPO Loss": 3.060298655777367e-06,
      "Negative Geometric Mean": -12.873194280660377,
      "Negative prob": -12.873194280660377,
      "Normal Loss": 0.33571678400039673,
      "Normal prob": -0.33571678400039673,
      "Positive Loss": 0.0060377782210707664,
      "Positive prob": -0.0060377782210707664,
      "epoch": 3.8208955223880596,
      "step": 128
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.22519126534461975,
      "Normal prob": -0.22519126534461975,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.8208955223880596,
      "step": 128
    },
    {
      "epoch": 3.8507462686567164,
      "grad_norm": 7.002612239614997,
      "learning_rate": 6.818181818181819e-08,
      "loss": 0.2147,
      "step": 129
    },
    {
      "DPO Loss": 1.0818999409674698e-06,
      "Negative Geometric Mean": -13.897989908854166,
      "Negative prob": -13.897989908854166,
      "Normal Loss": 0.2647945284843445,
      "Normal prob": -0.2647945284843445,
      "Positive Loss": 0.005775726865977049,
      "Positive prob": -0.005775726865977049,
      "epoch": 3.8507462686567164,
      "step": 129
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.14088931679725647,
      "Normal prob": -0.14088931679725647,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.8507462686567164,
      "step": 129
    },
    {
      "epoch": 3.8805970149253732,
      "grad_norm": 7.106870960626619,
      "learning_rate": 4.545454545454546e-08,
      "loss": 0.2408,
      "step": 130
    },
    {
      "DPO Loss": 3.805466487272458e-06,
      "Negative Geometric Mean": -12.980504410990168,
      "Negative prob": -12.980504410990168,
      "Normal Loss": 0.3013966977596283,
      "Normal prob": -0.3013966977596283,
      "Positive Loss": 0.003041935386136174,
      "Positive prob": -0.003041935386136174,
      "epoch": 3.8805970149253732,
      "step": 130
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.27534565329551697,
      "Normal prob": -0.27534565329551697,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.8805970149253732,
      "step": 130
    },
    {
      "epoch": 3.91044776119403,
      "grad_norm": 5.966195743329273,
      "learning_rate": 2.272727272727273e-08,
      "loss": 0.2029,
      "step": 131
    },
    {
      "DPO Loss": 1.5273080011035291e-06,
      "Negative Geometric Mean": -13.34349348358295,
      "Negative prob": -13.34349348358295,
      "Normal Loss": 0.20480337738990784,
      "Normal prob": -0.20480337738990784,
      "Positive Loss": 0.0037362114526331425,
      "Positive prob": -0.0037362114526331425,
      "epoch": 3.91044776119403,
      "step": 131
    },
    {
      "DPO Loss": 0.0,
      "Negative Geometric Mean": 0.0,
      "Negative prob": 0.0,
      "Normal Loss": 0.19383595883846283,
      "Normal prob": -0.19383595883846283,
      "Positive Loss": 0.0,
      "Positive prob": 0.0,
      "epoch": 3.91044776119403,
      "step": 131
    },
    {
      "epoch": 3.9402985074626864,
      "grad_norm": 6.0018477972181445,
      "learning_rate": 0.0,
      "loss": 0.1864,
      "step": 132
    }
  ],
  "logging_steps": 1,
  "max_steps": 132,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 11615663554560.0,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}