Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ca6efbed2efe6156b8c59735fb4dfca38ce2a5db135322b35d06c0d9ece4461
 size 204500912

 version https://git-lfs.github.com/spec/v1
+oid sha256:d24df5eae34ec3fdf38b1f2b6c298e42ad8fb07bed978b6111473d86177209f2
 size 204500912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3228e0321659c4502abc82fa473ef10d695f47b297d8c49e209a320ec0d862e0
 size 104062923

 version https://git-lfs.github.com/spec/v1
+oid sha256:789ad1dcf0738c2b103827b3bf6b47de957c032a3a1cd442af3b12552cfbbd4f
 size 104062923

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d6d8fafcd1ee268414be5acf0366296af5b03d60871978712eac1979cb42d65
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:568b50080100a449a915d52bb8c381d309ce62e67e1fc337145dd1ba27bc34ba
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d72352d4b2a5c34b9f8314745f4274a6ceaf25c7fd28797dfe03562830d2faba
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.5928880026586905,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -908,6 +908,306 @@
       "rewards/margins": 149.69699096679688,
       "rewards/rejected": -148.73023986816406,
       "step": 600
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.122299767364573,
   "eval_steps": 500,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 149.69699096679688,
       "rewards/rejected": -148.73023986816406,
       "step": 600
+    },
+    {
+      "epoch": 1.6194749086075109,
+      "grad_norm": 66.45056915283203,
+      "learning_rate": 4.344444444444444e-07,
+      "logits/chosen": 7.270118713378906,
+      "logits/rejected": 7.5960588455200195,
+      "logps/chosen": -503.7193298339844,
+      "logps/rejected": -1094.6021728515625,
+      "loss": 1.5946972846984864,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -3.655120372772217,
+      "rewards/margins": 125.68217468261719,
+      "rewards/rejected": -129.33731079101562,
+      "step": 610
+    },
+    {
+      "epoch": 1.646061814556331,
+      "grad_norm": 280.2427978515625,
+      "learning_rate": 4.2333333333333334e-07,
+      "logits/chosen": 7.251768589019775,
+      "logits/rejected": 7.520864009857178,
+      "logps/chosen": -517.1514892578125,
+      "logps/rejected": -1172.587158203125,
+      "loss": 2.4477691650390625,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.9268826246261597,
+      "rewards/margins": 142.18368530273438,
+      "rewards/rejected": -141.2567901611328,
+      "step": 620
+    },
+    {
+      "epoch": 1.6726487205051512,
+      "grad_norm": 1.0393255949020386,
+      "learning_rate": 4.122222222222222e-07,
+      "logits/chosen": 7.011075019836426,
+      "logits/rejected": 7.46621561050415,
+      "logps/chosen": -447.34124755859375,
+      "logps/rejected": -1143.3458251953125,
+      "loss": 1.0738434791564941,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 1.6229969263076782,
+      "rewards/margins": 142.9796600341797,
+      "rewards/rejected": -141.35665893554688,
+      "step": 630
+    },
+    {
+      "epoch": 1.6992356264539714,
+      "grad_norm": 119.75847625732422,
+      "learning_rate": 4.0111111111111106e-07,
+      "logits/chosen": 6.9999237060546875,
+      "logits/rejected": 7.578449249267578,
+      "logps/chosen": -469.19012451171875,
+      "logps/rejected": -1200.680419921875,
+      "loss": 0.9937694549560547,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 1.2244775295257568,
+      "rewards/margins": 147.14993286132812,
+      "rewards/rejected": -145.92544555664062,
+      "step": 640
+    },
+    {
+      "epoch": 1.7258225324027916,
+      "grad_norm": 27.75540542602539,
+      "learning_rate": 3.8999999999999997e-07,
+      "logits/chosen": 6.937554359436035,
+      "logits/rejected": 7.374237060546875,
+      "logps/chosen": -463.05438232421875,
+      "logps/rejected": -1168.0521240234375,
+      "loss": 0.39649856090545654,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 3.329749345779419,
+      "rewards/margins": 145.75735473632812,
+      "rewards/rejected": -142.4276123046875,
+      "step": 650
+    },
+    {
+      "epoch": 1.7524094383516118,
+      "grad_norm": 31.218721389770508,
+      "learning_rate": 3.788888888888889e-07,
+      "logits/chosen": 7.072316646575928,
+      "logits/rejected": 7.550895690917969,
+      "logps/chosen": -483.40234375,
+      "logps/rejected": -1184.9073486328125,
+      "loss": 0.25033409595489503,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.29609751701355,
+      "rewards/margins": 147.64785766601562,
+      "rewards/rejected": -149.94395446777344,
+      "step": 660
+    },
+    {
+      "epoch": 1.778996344300432,
+      "grad_norm": 6.414053359549143e-07,
+      "learning_rate": 3.6777777777777774e-07,
+      "logits/chosen": 7.303959846496582,
+      "logits/rejected": 7.623525142669678,
+      "logps/chosen": -508.6453552246094,
+      "logps/rejected": -1223.940673828125,
+      "loss": 0.31205618381500244,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.5321922302246094,
+      "rewards/margins": 150.60842895507812,
+      "rewards/rejected": -153.14060974121094,
+      "step": 670
+    },
+    {
+      "epoch": 1.8055832502492524,
+      "grad_norm": 1.0985974499902462e-12,
+      "learning_rate": 3.5666666666666666e-07,
+      "logits/chosen": 7.344334602355957,
+      "logits/rejected": 7.8254547119140625,
+      "logps/chosen": -532.2833251953125,
+      "logps/rejected": -1228.1844482421875,
+      "loss": 1.0204992294311523,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 3.5795791149139404,
+      "rewards/margins": 159.29647827148438,
+      "rewards/rejected": -155.71688842773438,
+      "step": 680
+    },
+    {
+      "epoch": 1.8321701561980723,
+      "grad_norm": 66.1689453125,
+      "learning_rate": 3.4555555555555557e-07,
+      "logits/chosen": 7.0121636390686035,
+      "logits/rejected": 7.367627143859863,
+      "logps/chosen": -453.792236328125,
+      "logps/rejected": -1141.1865234375,
+      "loss": 0.38547022342681886,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -0.3728172183036804,
+      "rewards/margins": 139.9238739013672,
+      "rewards/rejected": -140.29669189453125,
+      "step": 690
+    },
+    {
+      "epoch": 1.8587570621468927,
+      "grad_norm": 1.7826409438004044e-20,
+      "learning_rate": 3.3444444444444443e-07,
+      "logits/chosen": 6.914497375488281,
+      "logits/rejected": 7.344313144683838,
+      "logps/chosen": -456.8873596191406,
+      "logps/rejected": -1159.482666015625,
+      "loss": 0.2864746332168579,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.41872739791870117,
+      "rewards/margins": 139.0840606689453,
+      "rewards/rejected": -139.50277709960938,
+      "step": 700
+    },
+    {
+      "epoch": 1.8853439680957127,
+      "grad_norm": 0.6577161550521851,
+      "learning_rate": 3.233333333333333e-07,
+      "logits/chosen": 7.24100399017334,
+      "logits/rejected": 7.729971408843994,
+      "logps/chosen": -453.352783203125,
+      "logps/rejected": -1139.1920166015625,
+      "loss": 0.40453357696533204,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.5374351739883423,
+      "rewards/margins": 134.17910766601562,
+      "rewards/rejected": -134.71653747558594,
+      "step": 710
+    },
+    {
+      "epoch": 1.911930874044533,
+      "grad_norm": 58.065155029296875,
+      "learning_rate": 3.122222222222222e-07,
+      "logits/chosen": 7.2779541015625,
+      "logits/rejected": 7.5862250328063965,
+      "logps/chosen": -502.33489990234375,
+      "logps/rejected": -1174.3145751953125,
+      "loss": 0.2982128143310547,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.528018593788147,
+      "rewards/margins": 134.43031311035156,
+      "rewards/rejected": -133.9022979736328,
+      "step": 720
+    },
+    {
+      "epoch": 1.9385177799933533,
+      "grad_norm": 3.057793140411377,
+      "learning_rate": 3.011111111111111e-07,
+      "logits/chosen": 7.26782751083374,
+      "logits/rejected": 7.741539001464844,
+      "logps/chosen": -496.8504943847656,
+      "logps/rejected": -1235.9169921875,
+      "loss": 0.8299455642700195,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.2519731819629669,
+      "rewards/margins": 152.95582580566406,
+      "rewards/rejected": -153.20779418945312,
+      "step": 730
+    },
+    {
+      "epoch": 1.9651046859421735,
+      "grad_norm": 185.18174743652344,
+      "learning_rate": 2.9e-07,
+      "logits/chosen": 7.201784610748291,
+      "logits/rejected": 7.585198402404785,
+      "logps/chosen": -474.599853515625,
+      "logps/rejected": -1184.7464599609375,
+      "loss": 1.5328912734985352,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -3.7899742126464844,
+      "rewards/margins": 142.3949432373047,
+      "rewards/rejected": -146.1849365234375,
+      "step": 740
+    },
+    {
+      "epoch": 1.9916915918909937,
+      "grad_norm": 173.19436645507812,
+      "learning_rate": 2.788888888888889e-07,
+      "logits/chosen": 7.347403526306152,
+      "logits/rejected": 7.8731865882873535,
+      "logps/chosen": -484.5741271972656,
+      "logps/rejected": -1241.9910888671875,
+      "loss": 0.9414227485656739,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.26702070236206055,
+      "rewards/margins": 149.2693328857422,
+      "rewards/rejected": -149.53634643554688,
+      "step": 750
+    },
+    {
+      "epoch": 2.015952143569292,
+      "grad_norm": 277.53521728515625,
+      "learning_rate": 2.6777777777777775e-07,
+      "logits/chosen": 7.591332912445068,
+      "logits/rejected": 7.759430408477783,
+      "logps/chosen": -578.1312866210938,
+      "logps/rejected": -1104.3414306640625,
+      "loss": 0.3479891538619995,
+      "rewards/accuracies": 0.9726027250289917,
+      "rewards/chosen": -3.462564468383789,
+      "rewards/margins": 117.48858642578125,
+      "rewards/rejected": -120.95115661621094,
+      "step": 760
+    },
+    {
+      "epoch": 2.0425390495181124,
+      "grad_norm": 81.4224624633789,
+      "learning_rate": 2.5666666666666666e-07,
+      "logits/chosen": 6.820937156677246,
+      "logits/rejected": 7.438076972961426,
+      "logps/chosen": -445.38592529296875,
+      "logps/rejected": -1255.2547607421875,
+      "loss": 0.7632743835449218,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.3056232929229736,
+      "rewards/margins": 162.7215576171875,
+      "rewards/rejected": -164.02719116210938,
+      "step": 770
+    },
+    {
+      "epoch": 2.0691259554669323,
+      "grad_norm": 80.839111328125,
+      "learning_rate": 2.455555555555555e-07,
+      "logits/chosen": 7.089077949523926,
+      "logits/rejected": 7.562623500823975,
+      "logps/chosen": -479.9771423339844,
+      "logps/rejected": -1212.7470703125,
+      "loss": 0.37755522727966306,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.4610620439052582,
+      "rewards/margins": 147.49462890625,
+      "rewards/rejected": -147.9556884765625,
+      "step": 780
+    },
+    {
+      "epoch": 2.0957128614157527,
+      "grad_norm": 102.21258544921875,
+      "learning_rate": 2.3444444444444444e-07,
+      "logits/chosen": 7.348860740661621,
+      "logits/rejected": 7.812272548675537,
+      "logps/chosen": -545.9133911132812,
+      "logps/rejected": -1209.3829345703125,
+      "loss": 0.8432134628295899,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -4.405800819396973,
+      "rewards/margins": 136.8076629638672,
+      "rewards/rejected": -141.2134552001953,
+      "step": 790
+    },
+    {
+      "epoch": 2.122299767364573,
+      "grad_norm": 7.490438461303711,
+      "learning_rate": 2.2333333333333332e-07,
+      "logits/chosen": 6.928166389465332,
+      "logits/rejected": 7.589695930480957,
+      "logps/chosen": -411.7215881347656,
+      "logps/rejected": -1234.5572509765625,
+      "loss": 0.08373026251792907,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.1743253469467163,
+      "rewards/margins": 159.31773376464844,
+      "rewards/rejected": -160.49208068847656,
+      "step": 800
     }
   ],
   "logging_steps": 10,