Training in progress, step 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +78 -78
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,11 +20,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "v_proj",
     "o_proj",
-    "down_proj",
-    "k_proj",
     "gate_proj",
     "q_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "up_proj",
+    "k_proj",
     "v_proj",
     "o_proj",
     "gate_proj",
     "q_proj"
   ],

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f27d0426777f8c4a51b28ae4bcdb653c77d8ea7daeff0c994b6894cbb6cbe192
 size 83115256

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5eb5aa49deee1c7b9ed99237d89de35a36f9bb595761637f2bf81c7c5db0b96
 size 83115256

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9316ccfb128c67c1bd8c6916679f7c9a9cf9606d0221da4fbdeae16892bd2f3
 size 166351098

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cb3c6399204c6987be382b0054ab53cc0a980d62814f30caa7b35502d5f4df3
 size 166351098

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0005925925925925926,
-      "grad_norm": 10.865681648254395,
       "learning_rate": 5e-07,
       "logits/chosen": -4.444676399230957,
       "logits/rejected": -4.0909342765808105,
@@ -25,7 +25,7 @@
     },
     {
       "epoch": 0.0011851851851851852,
-      "grad_norm": 7.5645222663879395,
       "learning_rate": 4.849231551964771e-07,
       "logits/chosen": -4.530362606048584,
       "logits/rejected": -3.981240749359131,
@@ -40,122 +40,122 @@
     },
     {
       "epoch": 0.0017777777777777779,
-      "grad_norm": 12.264541625976562,
       "learning_rate": 4.415111107797445e-07,
-      "logits/chosen": -4.541451454162598,
-      "logits/rejected": -4.319692134857178,
-      "logps/chosen": -200.88140869140625,
-      "logps/rejected": -224.45669555664062,
-      "loss": 0.6763,
       "rewards/accuracies": 1.0,
-      "rewards/chosen": 0.03173255920410156,
-      "rewards/margins": 0.034035492688417435,
-      "rewards/rejected": -0.0023029325529932976,
       "step": 3
     },
     {
       "epoch": 0.0023703703703703703,
-      "grad_norm": 12.956914901733398,
       "learning_rate": 3.75e-07,
-      "logits/chosen": -3.9681053161621094,
-      "logits/rejected": -4.464873313903809,
-      "logps/chosen": -239.55850219726562,
-      "logps/rejected": -202.18539428710938,
-      "loss": 0.7201,
       "rewards/accuracies": 0.25,
-      "rewards/chosen": 0.0021869614720344543,
-      "rewards/margins": -0.05291424319148064,
-      "rewards/rejected": 0.05510121211409569,
       "step": 4
     },
     {
       "epoch": 0.002962962962962963,
-      "grad_norm": 6.8053297996521,
       "learning_rate": 2.934120444167326e-07,
-      "logits/chosen": -4.139642715454102,
-      "logits/rejected": -4.70045280456543,
-      "logps/chosen": -169.15768432617188,
-      "logps/rejected": -149.37445068359375,
-      "loss": 0.6838,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.014175796881318092,
-      "rewards/margins": 0.0190824493765831,
-      "rewards/rejected": -0.004906653426587582,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
-      "grad_norm": 12.668423652648926,
       "learning_rate": 2.065879555832674e-07,
-      "logits/chosen": -5.052216529846191,
-      "logits/rejected": -5.141656875610352,
-      "logps/chosen": -193.5230712890625,
-      "logps/rejected": -202.5981903076172,
-      "loss": 0.6645,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.024214554578065872,
-      "rewards/margins": 0.05957336351275444,
-      "rewards/rejected": -0.03535880893468857,
       "step": 6
     },
     {
       "epoch": 0.004148148148148148,
-      "grad_norm": 6.801946640014648,
       "learning_rate": 1.2500000000000005e-07,
-      "logits/chosen": -4.241697311401367,
-      "logits/rejected": -3.6782054901123047,
-      "logps/chosen": -176.48068237304688,
-      "logps/rejected": -223.32989501953125,
-      "loss": 0.702,
       "rewards/accuracies": 0.25,
-      "rewards/chosen": -0.007834245450794697,
-      "rewards/margins": -0.016704559326171875,
-      "rewards/rejected": 0.008870314806699753,
       "step": 7
     },
     {
       "epoch": 0.004740740740740741,
-      "grad_norm": 10.848843574523926,
       "learning_rate": 5.848888922025552e-08,
-      "logits/chosen": -4.412553310394287,
-      "logits/rejected": -4.416936874389648,
-      "logps/chosen": -182.169677734375,
-      "logps/rejected": -196.12384033203125,
-      "loss": 0.7098,
-      "rewards/accuracies": 0.25,
-      "rewards/chosen": -0.046158790588378906,
-      "rewards/margins": -0.0327875129878521,
-      "rewards/rejected": -0.01337127760052681,
       "step": 8
     },
     {
       "epoch": 0.005333333333333333,
-      "grad_norm": 9.211188316345215,
       "learning_rate": 1.507684480352292e-08,
-      "logits/chosen": -4.912792205810547,
-      "logits/rejected": -4.601197719573975,
-      "logps/chosen": -154.6743927001953,
-      "logps/rejected": -178.96322631835938,
-      "loss": 0.7079,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.004396629519760609,
-      "rewards/margins": -0.02871532551944256,
-      "rewards/rejected": 0.03311195224523544,
       "step": 9
     },
     {
       "epoch": 0.005925925925925926,
-      "grad_norm": 9.900830268859863,
       "learning_rate": 0.0,
-      "logits/chosen": -3.811270236968994,
-      "logits/rejected": -3.6899518966674805,
-      "logps/chosen": -232.9193878173828,
-      "logps/rejected": -254.06576538085938,
-      "loss": 0.7203,
       "rewards/accuracies": 0.25,
-      "rewards/chosen": -0.048137664794921875,
-      "rewards/margins": -0.05214844271540642,
-      "rewards/rejected": 0.0040107727982103825,
       "step": 10
     }
   ],

   "log_history": [
     {
       "epoch": 0.0005925925925925926,
+      "grad_norm": 10.858694076538086,
       "learning_rate": 5e-07,
       "logits/chosen": -4.444676399230957,
       "logits/rejected": -4.0909342765808105,
     },
     {
       "epoch": 0.0011851851851851852,
+      "grad_norm": 7.565941333770752,
       "learning_rate": 4.849231551964771e-07,
       "logits/chosen": -4.530362606048584,
       "logits/rejected": -3.981240749359131,
     },
     {
       "epoch": 0.0017777777777777779,
+      "grad_norm": 13.622398376464844,
       "learning_rate": 4.415111107797445e-07,
+      "logits/chosen": -4.5415449142456055,
+      "logits/rejected": -4.322567462921143,
+      "logps/chosen": -200.85960388183594,
+      "logps/rejected": -224.73626708984375,
+      "loss": 0.6619,
       "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03391075134277344,
+      "rewards/margins": 0.06416893005371094,
+      "rewards/rejected": -0.03025818057358265,
       "step": 3
     },
     {
       "epoch": 0.0023703703703703703,
+      "grad_norm": 10.704012870788574,
       "learning_rate": 3.75e-07,
+      "logits/chosen": -3.9766385555267334,
+      "logits/rejected": -4.474390029907227,
+      "logps/chosen": -239.95339965820312,
+      "logps/rejected": -202.6293182373047,
+      "loss": 0.7176,
       "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.037302400916814804,
+      "rewards/margins": -0.04801139980554581,
+      "rewards/rejected": 0.010708999820053577,
       "step": 4
     },
     {
       "epoch": 0.002962962962962963,
+      "grad_norm": 6.752383232116699,
       "learning_rate": 2.934120444167326e-07,
+      "logits/chosen": -4.133105754852295,
+      "logits/rejected": -4.693289279937744,
+      "logps/chosen": -168.95433044433594,
+      "logps/rejected": -149.30447387695312,
+      "loss": 0.6772,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03451080620288849,
+      "rewards/margins": 0.03242149576544762,
+      "rewards/rejected": 0.002089309971779585,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
+      "grad_norm": 12.878663063049316,
       "learning_rate": 2.065879555832674e-07,
+      "logits/chosen": -5.0531182289123535,
+      "logits/rejected": -5.144861221313477,
+      "logps/chosen": -193.86325073242188,
+      "logps/rejected": -202.404052734375,
+      "loss": 0.6904,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.009803391061723232,
+      "rewards/margins": 0.0061431871727108955,
+      "rewards/rejected": -0.015946578234434128,
       "step": 6
     },
     {
       "epoch": 0.004148148148148148,
+      "grad_norm": 6.771181106567383,
       "learning_rate": 1.2500000000000005e-07,
+      "logits/chosen": -4.2494401931762695,
+      "logits/rejected": -3.684239387512207,
+      "logps/chosen": -176.15640258789062,
+      "logps/rejected": -223.1680450439453,
+      "loss": 0.6937,
       "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.02459411695599556,
+      "rewards/margins": -0.0004608146846294403,
+      "rewards/rejected": 0.025054931640625,
       "step": 7
     },
     {
       "epoch": 0.004740740740740741,
+      "grad_norm": 11.16915225982666,
       "learning_rate": 5.848888922025552e-08,
+      "logits/chosen": -4.407987117767334,
+      "logits/rejected": -4.415105819702148,
+      "logps/chosen": -182.2259063720703,
+      "logps/rejected": -196.61068725585938,
+      "loss": 0.6884,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.05178241804242134,
+      "rewards/margins": 0.010274123400449753,
+      "rewards/rejected": -0.062056541442871094,
       "step": 8
     },
     {
       "epoch": 0.005333333333333333,
+      "grad_norm": 9.21722412109375,
       "learning_rate": 1.507684480352292e-08,
+      "logits/chosen": -4.9174699783325195,
+      "logits/rejected": -4.600230693817139,
+      "logps/chosen": -154.47506713867188,
+      "logps/rejected": -178.89224243164062,
+      "loss": 0.7014,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": 0.024329185485839844,
+      "rewards/margins": -0.01587962917983532,
+      "rewards/rejected": 0.04020881652832031,
       "step": 9
     },
     {
       "epoch": 0.005925925925925926,
+      "grad_norm": 16.037979125976562,
       "learning_rate": 0.0,
+      "logits/chosen": -3.811877965927124,
+      "logits/rejected": -3.696570873260498,
+      "logps/chosen": -232.4647216796875,
+      "logps/rejected": -253.81515502929688,
+      "loss": 0.7093,
       "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.00266952533274889,
+      "rewards/margins": -0.03174018859863281,
+      "rewards/rejected": 0.029070664197206497,
       "step": 10
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df64dc0795fc627634470424f7366259c97c0d10c3ebda1504e218404ff7188
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8e9b719f5f1bef02ca8d4f429a8f8a2f1e58ec49b254b8eeb60d43f830af0f
 size 5944