Training in progress, epoch 5, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step696/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step696/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step696/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step696/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step696/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +667 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9b3d5ef8dbdcdd390a28e8037a9c883e8a9e8cc1df2bfd56b85381a25d34c5d
 size 447329696

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d36bb55f9ac1df2f0d25ce2eeb81398e77802712a9578fe7f76ff563ea24649
 size 447329696

last-checkpoint/global_step696/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4c7162362fba71e07486a810c54ff80de80f30a28d703d942d1b997fc7cb8f8
+size 337225765

last-checkpoint/global_step696/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:443d6b0cb79a60396548ba9571603afc505a2e142118cf17253eb8cca82fab00
+size 337225893

last-checkpoint/global_step696/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6c2721131a9b37b14e647c7842fa21c9aa750d5900edff2f7a8789d446cfd01
+size 337225893

last-checkpoint/global_step696/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef5b68eb08ee3435b3171510705fb9555af98adb337cee17a512add33cdb6165
+size 337225893

last-checkpoint/global_step696/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:019144f749e09b782b7717eb00845b206f2fa622efbcf032ef99a7cdb1d5e08b
+size 2282578149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step497~~


1	+ global_step696

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f34c4cbedf904399f4af645d3a28b5df479b137f15e45ec6f64752366a021c2a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9eb01ae7bebb6b2a69fa94159506146b6a17d03c942454e369b782eddbb3636
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b258dea490f3c111fd5c3c5d465fe0d908ad66054e60aeaedacb677d1550c2d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:298868c6850dcaf75951547384b919258d47c4f21a1ad448e8ee66c8bb469ab8
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a7cca18d789646595df1226a296f57b919871ef7b43fbc9c48167cc9298caf0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2a2670a19da7fa45f48be9e5fd15b26c73f5d6e0697c656b72c25cc7434cdf5
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:974d503ff1933efc14c242d9a07591e593c3b2292a817c5631a35c3194ee17f5
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:de3342513d449cf4f76bef1f9580a412a0169f63933fafeee84531d02a02cbab
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f9cdb2030c3839622af843b226922b0fa7518a706f7fba0868523f0d6419afe
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:272c412581b4c5ddc60c3fc9367c287dd2275d591e95dd9031ee094fa9346284
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.014533035457134247,
   "best_model_checkpoint": null,
-  "epoch": 3.5745062836624775,
   "eval_steps": 50,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1668,6 +1668,670 @@
       "eval_samples_per_second": 31.219,
       "eval_steps_per_second": 1.988,
       "step": 500
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.009149392135441303,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 50,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 31.219,
       "eval_steps_per_second": 1.988,
       "step": 500
+    },
+    {
+      "epoch": 3.6104129263913824,
+      "grad_norm": 0.02227591536939144,
+      "learning_rate": 0.00011329185086309797,
+      "logits/chosen": -5.440625190734863,
+      "logits/rejected": -6.892187595367432,
+      "logps/chosen": -263.04998779296875,
+      "logps/rejected": -438.5,
+      "loss": 0.0284,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -19.5625,
+      "rewards/margins": 16.524999618530273,
+      "rewards/rejected": -36.099998474121094,
+      "step": 505
+    },
+    {
+      "epoch": 3.646319569120287,
+      "grad_norm": 0.263701468706131,
+      "learning_rate": 0.00011328024147954178,
+      "logits/chosen": -6.275000095367432,
+      "logits/rejected": -7.809374809265137,
+      "logps/chosen": -318.5,
+      "logps/rejected": -494.5,
+      "loss": 0.0307,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -25.049999237060547,
+      "rewards/margins": 17.087499618530273,
+      "rewards/rejected": -42.13750076293945,
+      "step": 510
+    },
+    {
+      "epoch": 3.682226211849192,
+      "grad_norm": 0.08680078387260437,
+      "learning_rate": 0.00011326849010673409,
+      "logits/chosen": -7.175000190734863,
+      "logits/rejected": -8.606249809265137,
+      "logps/chosen": -344.70001220703125,
+      "logps/rejected": -576.4000244140625,
+      "loss": 0.0187,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -27.662500381469727,
+      "rewards/margins": 22.403125762939453,
+      "rewards/rejected": -50.0625,
+      "step": 515
+    },
+    {
+      "epoch": 3.718132854578097,
+      "grad_norm": 0.3637928068637848,
+      "learning_rate": 0.00011325659677425894,
+      "logits/chosen": -6.360937595367432,
+      "logits/rejected": -8.0078125,
+      "logps/chosen": -321.70001220703125,
+      "logps/rejected": -571.2999877929688,
+      "loss": 0.0563,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -25.375,
+      "rewards/margins": 24.231250762939453,
+      "rewards/rejected": -49.5625,
+      "step": 520
+    },
+    {
+      "epoch": 3.754039497307002,
+      "grad_norm": 0.06884779036045074,
+      "learning_rate": 0.00011324456151205779,
+      "logits/chosen": -5.998437404632568,
+      "logits/rejected": -7.151562690734863,
+      "logps/chosen": -310.5,
+      "logps/rejected": -512.7999877929688,
+      "loss": 0.0412,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -24.200000762939453,
+      "rewards/margins": 19.4375,
+      "rewards/rejected": -43.63750076293945,
+      "step": 525
+    },
+    {
+      "epoch": 3.789946140035907,
+      "grad_norm": 0.19923055171966553,
+      "learning_rate": 0.0001132323843504294,
+      "logits/chosen": -6.621874809265137,
+      "logits/rejected": -7.451562404632568,
+      "logps/chosen": -316.8999938964844,
+      "logps/rejected": -483.79998779296875,
+      "loss": 0.0418,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -24.6875,
+      "rewards/margins": 16.034374237060547,
+      "rewards/rejected": -40.724998474121094,
+      "step": 530
+    },
+    {
+      "epoch": 3.8258527827648114,
+      "grad_norm": 0.025405047461390495,
+      "learning_rate": 0.00011322006532002976,
+      "logits/chosen": -7.5390625,
+      "logits/rejected": -8.484375,
+      "logps/chosen": -325.1000061035156,
+      "logps/rejected": -495.0,
+      "loss": 0.0575,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -25.862499237060547,
+      "rewards/margins": 16.359375,
+      "rewards/rejected": -42.224998474121094,
+      "step": 535
+    },
+    {
+      "epoch": 3.8617594254937164,
+      "grad_norm": 0.7414963841438293,
+      "learning_rate": 0.00011320760445187202,
+      "logits/chosen": -8.795312881469727,
+      "logits/rejected": -10.037500381469727,
+      "logps/chosen": -355.8999938964844,
+      "logps/rejected": -577.0,
+      "loss": 0.0196,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -28.868749618530273,
+      "rewards/margins": 21.512500762939453,
+      "rewards/rejected": -50.38750076293945,
+      "step": 540
+    },
+    {
+      "epoch": 3.8976660682226214,
+      "grad_norm": 2.0291175842285156,
+      "learning_rate": 0.00011319500177732639,
+      "logits/chosen": -8.653124809265137,
+      "logits/rejected": -9.693750381469727,
+      "logps/chosen": -344.0,
+      "logps/rejected": -551.2999877929688,
+      "loss": 0.0377,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -27.618749618530273,
+      "rewards/margins": 19.924999237060547,
+      "rewards/rejected": -47.537498474121094,
+      "step": 545
+    },
+    {
+      "epoch": 3.933572710951526,
+      "grad_norm": 0.06643925607204437,
+      "learning_rate": 0.00011318225732812008,
+      "logits/chosen": -6.587500095367432,
+      "logits/rejected": -7.754687309265137,
+      "logps/chosen": -280.04998779296875,
+      "logps/rejected": -456.8999938964844,
+      "loss": 0.033,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -21.100000381469727,
+      "rewards/margins": 17.134374618530273,
+      "rewards/rejected": -38.25,
+      "step": 550
+    },
+    {
+      "epoch": 3.933572710951526,
+      "eval_logits/chosen": -5.768382549285889,
+      "eval_logits/rejected": -6.928308963775635,
+      "eval_logps/chosen": -264.4117736816406,
+      "eval_logps/rejected": -437.76470947265625,
+      "eval_loss": 0.04973261430859566,
+      "eval_rewards/accuracies": 0.9852941036224365,
+      "eval_rewards/chosen": -19.34558868408203,
+      "eval_rewards/margins": 16.566177368164062,
+      "eval_rewards/rejected": -35.89706039428711,
+      "eval_runtime": 8.691,
+      "eval_samples_per_second": 30.721,
+      "eval_steps_per_second": 1.956,
+      "step": 550
+    },
+    {
+      "epoch": 3.969479353680431,
+      "grad_norm": 0.709564208984375,
+      "learning_rate": 0.00011316937113633724,
+      "logits/chosen": -5.145312309265137,
+      "logits/rejected": -6.15625,
+      "logps/chosen": -254.3000030517578,
+      "logps/rejected": -400.3999938964844,
+      "loss": 0.0689,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -18.596874237060547,
+      "rewards/margins": 13.71875,
+      "rewards/rejected": -32.318748474121094,
+      "step": 555
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.014319206587970257,
+      "learning_rate": 0.00011315634323441883,
+      "logits/chosen": -4.669117450714111,
+      "logits/rejected": -5.674632549285889,
+      "logps/chosen": -250.88235473632812,
+      "logps/rejected": -388.23529052734375,
+      "loss": 0.0647,
+      "rewards/accuracies": 0.9632353186607361,
+      "rewards/chosen": -18.419116973876953,
+      "rewards/margins": 12.941176414489746,
+      "rewards/rejected": -31.33823585510254,
+      "step": 560
+    },
+    {
+      "epoch": 4.0359066427289045,
+      "grad_norm": 1.3408515453338623,
+      "learning_rate": 0.0001131431736551626,
+      "logits/chosen": -4.814062595367432,
+      "logits/rejected": -6.176562309265137,
+      "logps/chosen": -249.4499969482422,
+      "logps/rejected": -412.79998779296875,
+      "loss": 0.0462,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -18.274999618530273,
+      "rewards/margins": 15.787500381469727,
+      "rewards/rejected": -34.068748474121094,
+      "step": 565
+    },
+    {
+      "epoch": 4.07181328545781,
+      "grad_norm": 0.39796170592308044,
+      "learning_rate": 0.00011312986243172293,
+      "logits/chosen": -4.244531154632568,
+      "logits/rejected": -6.751562595367432,
+      "logps/chosen": -225.6999969482422,
+      "logps/rejected": -486.6000061035156,
+      "loss": 0.013,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -15.662500381469727,
+      "rewards/margins": 25.412500381469727,
+      "rewards/rejected": -41.087501525878906,
+      "step": 570
+    },
+    {
+      "epoch": 4.1077199281867145,
+      "grad_norm": 2.608715772628784,
+      "learning_rate": 0.00011311640959761081,
+      "logits/chosen": -3.823437452316284,
+      "logits/rejected": -7.4375,
+      "logps/chosen": -240.14999389648438,
+      "logps/rejected": -562.5999755859375,
+      "loss": 0.053,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -17.225000381469727,
+      "rewards/margins": 31.493749618530273,
+      "rewards/rejected": -48.75,
+      "step": 575
+    },
+    {
+      "epoch": 4.143626570915619,
+      "grad_norm": 2.569322347640991,
+      "learning_rate": 0.00011310281518669376,
+      "logits/chosen": -5.467187404632568,
+      "logits/rejected": -8.5078125,
+      "logps/chosen": -370.6000061035156,
+      "logps/rejected": -627.0,
+      "loss": 0.0235,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -30.15625,
+      "rewards/margins": 25.225000381469727,
+      "rewards/rejected": -55.38750076293945,
+      "step": 580
+    },
+    {
+      "epoch": 4.1795332136445245,
+      "grad_norm": 7.271477699279785,
+      "learning_rate": 0.00011308907923319566,
+      "logits/chosen": -4.629687309265137,
+      "logits/rejected": -7.557812690734863,
+      "logps/chosen": -309.3500061035156,
+      "logps/rejected": -587.4000244140625,
+      "loss": 0.0519,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -24.274999618530273,
+      "rewards/margins": 27.075000762939453,
+      "rewards/rejected": -51.337501525878906,
+      "step": 585
+    },
+    {
+      "epoch": 4.215439856373429,
+      "grad_norm": 4.082700729370117,
+      "learning_rate": 0.00011307520177169676,
+      "logits/chosen": -4.9609375,
+      "logits/rejected": -7.151562690734863,
+      "logps/chosen": -320.79998779296875,
+      "logps/rejected": -574.0,
+      "loss": 0.0997,
+      "rewards/accuracies": 0.971875011920929,
+      "rewards/chosen": -25.225000381469727,
+      "rewards/margins": 25.018749237060547,
+      "rewards/rejected": -50.23749923706055,
+      "step": 590
+    },
+    {
+      "epoch": 4.2513464991023335,
+      "grad_norm": 1.2855074405670166,
+      "learning_rate": 0.00011306118283713357,
+      "logits/chosen": -3.370312452316284,
+      "logits/rejected": -4.561718940734863,
+      "logps/chosen": -268.54998779296875,
+      "logps/rejected": -507.8999938964844,
+      "loss": 0.0289,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -20.206249237060547,
+      "rewards/margins": 23.3125,
+      "rewards/rejected": -43.537498474121094,
+      "step": 595
+    },
+    {
+      "epoch": 4.287253141831239,
+      "grad_norm": 0.21659362316131592,
+      "learning_rate": 0.00011304702246479876,
+      "logits/chosen": -3.285937547683716,
+      "logits/rejected": -4.146093845367432,
+      "logps/chosen": -270.3500061035156,
+      "logps/rejected": -488.20001220703125,
+      "loss": 0.0174,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -19.931249618530273,
+      "rewards/margins": 21.193750381469727,
+      "rewards/rejected": -41.125,
+      "step": 600
+    },
+    {
+      "epoch": 4.287253141831239,
+      "eval_logits/chosen": -3.882352828979492,
+      "eval_logits/rejected": -5.0,
+      "eval_logps/chosen": -272.76470947265625,
+      "eval_logps/rejected": -492.8235168457031,
+      "eval_loss": 0.014545433223247528,
+      "eval_rewards/accuracies": 0.9926470518112183,
+      "eval_rewards/chosen": -20.176469802856445,
+      "eval_rewards/margins": 21.330883026123047,
+      "eval_rewards/rejected": -41.52941131591797,
+      "eval_runtime": 8.5511,
+      "eval_samples_per_second": 31.224,
+      "eval_steps_per_second": 1.988,
+      "step": 600
+    },
+    {
+      "epoch": 4.3231597845601435,
+      "grad_norm": 0.36118730902671814,
+      "learning_rate": 0.00011303272069034098,
+      "logits/chosen": -4.321875095367432,
+      "logits/rejected": -5.332812309265137,
+      "logps/chosen": -282.45001220703125,
+      "logps/rejected": -488.0,
+      "loss": 0.0449,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -21.653125762939453,
+      "rewards/margins": 19.787500381469727,
+      "rewards/rejected": -41.45000076293945,
+      "step": 605
+    },
+    {
+      "epoch": 4.359066427289049,
+      "grad_norm": 0.5386459231376648,
+      "learning_rate": 0.00011301827754976498,
+      "logits/chosen": -5.6015625,
+      "logits/rejected": -6.984375,
+      "logps/chosen": -302.29998779296875,
+      "logps/rejected": -557.7000122070312,
+      "loss": 0.0153,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -23.518749237060547,
+      "rewards/margins": 24.784374237060547,
+      "rewards/rejected": -48.29999923706055,
+      "step": 610
+    },
+    {
+      "epoch": 4.3949730700179535,
+      "grad_norm": 4.88869571685791,
+      "learning_rate": 0.00011300369307943137,
+      "logits/chosen": -6.215624809265137,
+      "logits/rejected": -7.949999809265137,
+      "logps/chosen": -270.1000061035156,
+      "logps/rejected": -572.2999877929688,
+      "loss": 0.0224,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -19.809375762939453,
+      "rewards/margins": 29.512500762939453,
+      "rewards/rejected": -49.3125,
+      "step": 615
+    },
+    {
+      "epoch": 4.430879712746858,
+      "grad_norm": 2.2598838806152344,
+      "learning_rate": 0.00011298896731605649,
+      "logits/chosen": -3.9453125,
+      "logits/rejected": -5.546875,
+      "logps/chosen": -203.35000610351562,
+      "logps/rejected": -407.79998779296875,
+      "loss": 0.0373,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -13.240625381469727,
+      "rewards/margins": 20.003124237060547,
+      "rewards/rejected": -33.26250076293945,
+      "step": 620
+    },
+    {
+      "epoch": 4.466786355475763,
+      "grad_norm": 0.47177407145500183,
+      "learning_rate": 0.00011297410029671247,
+      "logits/chosen": -3.74609375,
+      "logits/rejected": -5.087500095367432,
+      "logps/chosen": -281.70001220703125,
+      "logps/rejected": -448.79998779296875,
+      "loss": 0.04,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -21.34375,
+      "rewards/margins": 16.043750762939453,
+      "rewards/rejected": -37.42499923706055,
+      "step": 625
+    },
+    {
+      "epoch": 4.502692998204668,
+      "grad_norm": 0.2046031653881073,
+      "learning_rate": 0.00011295909205882698,
+      "logits/chosen": -1.002783179283142,
+      "logits/rejected": -3.4195313453674316,
+      "logps/chosen": -189.8249969482422,
+      "logps/rejected": -390.1000061035156,
+      "loss": 0.0272,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -11.790624618530273,
+      "rewards/margins": 19.309375762939453,
+      "rewards/rejected": -31.09375,
+      "step": 630
+    },
+    {
+      "epoch": 4.5385996409335725,
+      "grad_norm": 0.29450154304504395,
+      "learning_rate": 0.00011294394264018326,
+      "logits/chosen": -2.082812547683716,
+      "logits/rejected": -4.514062404632568,
+      "logps/chosen": -224.8000030517578,
+      "logps/rejected": -433.79998779296875,
+      "loss": 0.0158,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -15.709375381469727,
+      "rewards/margins": 19.975000381469727,
+      "rewards/rejected": -35.70000076293945,
+      "step": 635
+    },
+    {
+      "epoch": 4.574506283662478,
+      "grad_norm": 0.15016689896583557,
+      "learning_rate": 0.00011292865207891994,
+      "logits/chosen": -3.026562452316284,
+      "logits/rejected": -5.426562309265137,
+      "logps/chosen": -247.1999969482422,
+      "logps/rejected": -477.1000061035156,
+      "loss": 0.0044,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -17.771875381469727,
+      "rewards/margins": 22.262500762939453,
+      "rewards/rejected": -40.025001525878906,
+      "step": 640
+    },
+    {
+      "epoch": 4.6104129263913824,
+      "grad_norm": 3.1011385917663574,
+      "learning_rate": 0.00011291322041353101,
+      "logits/chosen": -3.1812500953674316,
+      "logits/rejected": -5.546875,
+      "logps/chosen": -231.9499969482422,
+      "logps/rejected": -464.5,
+      "loss": 0.0109,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -16.149999618530273,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -38.912498474121094,
+      "step": 645
+    },
+    {
+      "epoch": 4.646319569120287,
+      "grad_norm": 0.06376684457063675,
+      "learning_rate": 0.00011289764768286565,
+      "logits/chosen": -4.444531440734863,
+      "logits/rejected": -6.487500190734863,
+      "logps/chosen": -285.45001220703125,
+      "logps/rejected": -519.7999877929688,
+      "loss": 0.0149,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -21.674999237060547,
+      "rewards/margins": 22.8125,
+      "rewards/rejected": -44.525001525878906,
+      "step": 650
+    },
+    {
+      "epoch": 4.646319569120287,
+      "eval_logits/chosen": -4.110294342041016,
+      "eval_logits/rejected": -6.588235378265381,
+      "eval_logps/chosen": -257.6470642089844,
+      "eval_logps/rejected": -516.5882568359375,
+      "eval_loss": 0.029071472585201263,
+      "eval_rewards/accuracies": 0.9889705777168274,
+      "eval_rewards/chosen": -18.647058486938477,
+      "eval_rewards/margins": 25.28676414489746,
+      "eval_rewards/rejected": -43.94117736816406,
+      "eval_runtime": 8.8159,
+      "eval_samples_per_second": 30.286,
+      "eval_steps_per_second": 1.928,
+      "step": 650
+    },
+    {
+      "epoch": 4.682226211849192,
+      "grad_norm": 3.26318621635437,
+      "learning_rate": 0.00011288193392612822,
+      "logits/chosen": -3.928906202316284,
+      "logits/rejected": -6.315625190734863,
+      "logps/chosen": -248.64999389648438,
+      "logps/rejected": -503.79998779296875,
+      "loss": 0.056,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -18.081249237060547,
+      "rewards/margins": 24.456249237060547,
+      "rewards/rejected": -42.537498474121094,
+      "step": 655
+    },
+    {
+      "epoch": 4.718132854578097,
+      "grad_norm": 0.18917639553546906,
+      "learning_rate": 0.00011286607918287803,
+      "logits/chosen": -2.7222657203674316,
+      "logits/rejected": -5.206250190734863,
+      "logps/chosen": -258.1499938964844,
+      "logps/rejected": -481.79998779296875,
+      "loss": 0.0583,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -19.225000381469727,
+      "rewards/margins": 21.606250762939453,
+      "rewards/rejected": -40.849998474121094,
+      "step": 660
+    },
+    {
+      "epoch": 4.7540394973070015,
+      "grad_norm": 0.9138699173927307,
+      "learning_rate": 0.00011285008349302943,
+      "logits/chosen": -2.116406202316284,
+      "logits/rejected": -4.259375095367432,
+      "logps/chosen": -294.20001220703125,
+      "logps/rejected": -505.20001220703125,
+      "loss": 0.0192,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -23.012500762939453,
+      "rewards/margins": 20.296875,
+      "rewards/rejected": -43.337501525878906,
+      "step": 665
+    },
+    {
+      "epoch": 4.789946140035907,
+      "grad_norm": 0.5865360498428345,
+      "learning_rate": 0.00011283394689685153,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -5.800000190734863,
+      "logps/chosen": -292.0,
+      "logps/rejected": -535.2999877929688,
+      "loss": 0.0238,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -22.268749237060547,
+      "rewards/margins": 23.831249237060547,
+      "rewards/rejected": -46.04999923706055,
+      "step": 670
+    },
+    {
+      "epoch": 4.825852782764811,
+      "grad_norm": 1.3726475238800049,
+      "learning_rate": 0.0001128176694349682,
+      "logits/chosen": -3.3148436546325684,
+      "logits/rejected": -5.324999809265137,
+      "logps/chosen": -286.29998779296875,
+      "logps/rejected": -542.9000244140625,
+      "loss": 0.0127,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -22.024999618530273,
+      "rewards/margins": 24.868749618530273,
+      "rewards/rejected": -46.912498474121094,
+      "step": 675
+    },
+    {
+      "epoch": 4.861759425493716,
+      "grad_norm": 10.441712379455566,
+      "learning_rate": 0.00011280125114835791,
+      "logits/chosen": -2.067578077316284,
+      "logits/rejected": -4.528124809265137,
+      "logps/chosen": -216.75,
+      "logps/rejected": -488.70001220703125,
+      "loss": 0.0218,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -15.034375190734863,
+      "rewards/margins": 26.6875,
+      "rewards/rejected": -41.712501525878906,
+      "step": 680
+    },
+    {
+      "epoch": 4.897666068222621,
+      "grad_norm": 0.9471856355667114,
+      "learning_rate": 0.00011278469207835369,
+      "logits/chosen": -0.960888683795929,
+      "logits/rejected": -3.39453125,
+      "logps/chosen": -179.25,
+      "logps/rejected": -433.1000061035156,
+      "loss": 0.0337,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -11.198437690734863,
+      "rewards/margins": 24.59375,
+      "rewards/rejected": -35.787498474121094,
+      "step": 685
+    },
+    {
+      "epoch": 4.933572710951526,
+      "grad_norm": 4.058782577514648,
+      "learning_rate": 0.000112767992266643,
+      "logits/chosen": -2.7562499046325684,
+      "logits/rejected": -4.982031345367432,
+      "logps/chosen": -250.60000610351562,
+      "logps/rejected": -498.20001220703125,
+      "loss": 0.0548,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -18.268749237060547,
+      "rewards/margins": 23.912500381469727,
+      "rewards/rejected": -42.1875,
+      "step": 690
+    },
+    {
+      "epoch": 4.9694793536804305,
+      "grad_norm": 5.3591084480285645,
+      "learning_rate": 0.00011275115175526756,
+      "logits/chosen": -3.2984375953674316,
+      "logits/rejected": -5.337500095367432,
+      "logps/chosen": -273.29998779296875,
+      "logps/rejected": -526.4000244140625,
+      "loss": 0.0574,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -20.40625,
+      "rewards/margins": 24.493749618530273,
+      "rewards/rejected": -44.900001525878906,
+      "step": 695
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.2741596698760986,
+      "learning_rate": 0.00011273417058662334,
+      "logits/chosen": -1.62890625,
+      "logits/rejected": -3.163602828979492,
+      "logps/chosen": -178.4705810546875,
+      "logps/rejected": -387.76470947265625,
+      "loss": 0.0274,
+      "rewards/accuracies": 0.9852941036224365,
+      "rewards/chosen": -10.939338684082031,
+      "rewards/margins": 20.0,
+      "rewards/rejected": -30.941177368164062,
+      "step": 700
+    },
+    {
+      "epoch": 5.0,
+      "eval_logits/chosen": -1.3389246463775635,
+      "eval_logits/rejected": -2.8189337253570557,
+      "eval_logps/chosen": -160.88235473632812,
+      "eval_logps/rejected": -377.29412841796875,
+      "eval_loss": 0.009149392135441303,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -8.79411792755127,
+      "eval_rewards/margins": 20.941177368164062,
+      "eval_rewards/rejected": -29.757352828979492,
+      "eval_runtime": 8.8399,
+      "eval_samples_per_second": 30.204,
+      "eval_steps_per_second": 1.923,
+      "step": 700
     }
   ],
   "logging_steps": 5,