Training in progress, step 1000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d24df5eae34ec3fdf38b1f2b6c298e42ad8fb07bed978b6111473d86177209f2
 size 204500912

 version https://git-lfs.github.com/spec/v1
+oid sha256:268aa3d2814a792a1ce12fc0ee5a43e0bc3f4dfbe66bca24ad57492c892f8b91
 size 204500912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:789ad1dcf0738c2b103827b3bf6b47de957c032a3a1cd442af3b12552cfbbd4f
 size 104062923

 version https://git-lfs.github.com/spec/v1
+oid sha256:d14bdbb174576769aa6486b61934c2015edc41a72d409074143c0b546c4f989b
 size 104062923

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d72352d4b2a5c34b9f8314745f4274a6ceaf25c7fd28797dfe03562830d2faba
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf3f9c1ea54f8f95e6812b6b4e99596105233cd3e123554db760e4aba93f83e4
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.122299767364573,
   "eval_steps": 500,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1208,6 +1208,306 @@
       "rewards/margins": 159.31773376464844,
       "rewards/rejected": -160.49208068847656,
       "step": 800
     }
   ],
   "logging_steps": 10,
@@ -1222,7 +1522,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.6540378863409773,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 159.31773376464844,
       "rewards/rejected": -160.49208068847656,
       "step": 800
+    },
+    {
+      "epoch": 2.148886673313393,
+      "grad_norm": 0.0003583618381526321,
+      "learning_rate": 2.122222222222222e-07,
+      "logits/chosen": 7.2483720779418945,
+      "logits/rejected": 7.788289546966553,
+      "logps/chosen": -497.52069091796875,
+      "logps/rejected": -1158.642822265625,
+      "loss": 0.1160581350326538,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 2.365230083465576,
+      "rewards/margins": 146.15255737304688,
+      "rewards/rejected": -143.78732299804688,
+      "step": 810
+    },
+    {
+      "epoch": 2.1754735792622135,
+      "grad_norm": 6.3310980796813965,
+      "learning_rate": 2.011111111111111e-07,
+      "logits/chosen": 6.909984588623047,
+      "logits/rejected": 7.344359397888184,
+      "logps/chosen": -432.39764404296875,
+      "logps/rejected": -1212.4569091796875,
+      "loss": 0.9685474395751953,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -2.124849319458008,
+      "rewards/margins": 155.05654907226562,
+      "rewards/rejected": -157.18141174316406,
+      "step": 820
+    },
+    {
+      "epoch": 2.2020604852110335,
+      "grad_norm": 5.151050697094206e-09,
+      "learning_rate": 1.8999999999999998e-07,
+      "logits/chosen": 7.006634712219238,
+      "logits/rejected": 7.5766754150390625,
+      "logps/chosen": -431.0802307128906,
+      "logps/rejected": -1220.452392578125,
+      "loss": 1.1500192642211915,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.019794464111328,
+      "rewards/margins": 152.16506958007812,
+      "rewards/rejected": -154.18484497070312,
+      "step": 830
+    },
+    {
+      "epoch": 2.228647391159854,
+      "grad_norm": 1.951496702049138e-18,
+      "learning_rate": 1.7888888888888887e-07,
+      "logits/chosen": 6.816000938415527,
+      "logits/rejected": 7.375506401062012,
+      "logps/chosen": -439.57891845703125,
+      "logps/rejected": -1222.27001953125,
+      "loss": 0.3972776889801025,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.9101593494415283,
+      "rewards/margins": 158.9185333251953,
+      "rewards/rejected": -157.0083770751953,
+      "step": 840
+    },
+    {
+      "epoch": 2.255234297108674,
+      "grad_norm": 2.449645117964328e-15,
+      "learning_rate": 1.6777777777777778e-07,
+      "logits/chosen": 7.166296482086182,
+      "logits/rejected": 7.5857744216918945,
+      "logps/chosen": -484.2479553222656,
+      "logps/rejected": -1235.645263671875,
+      "loss": 0.15833470821380616,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.6545869708061218,
+      "rewards/margins": 155.0919952392578,
+      "rewards/rejected": -155.74655151367188,
+      "step": 850
+    },
+    {
+      "epoch": 2.2818212030574943,
+      "grad_norm": 67.49964141845703,
+      "learning_rate": 1.5666666666666667e-07,
+      "logits/chosen": 6.9471001625061035,
+      "logits/rejected": 7.408398628234863,
+      "logps/chosen": -406.9446105957031,
+      "logps/rejected": -1206.536376953125,
+      "loss": 0.3223508358001709,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 4.314828395843506,
+      "rewards/margins": 160.91775512695312,
+      "rewards/rejected": -156.60293579101562,
+      "step": 860
+    },
+    {
+      "epoch": 2.308408109006314,
+      "grad_norm": 3.4588420021464117e-06,
+      "learning_rate": 1.4555555555555555e-07,
+      "logits/chosen": 6.990222930908203,
+      "logits/rejected": 7.685202598571777,
+      "logps/chosen": -426.66973876953125,
+      "logps/rejected": -1176.889404296875,
+      "loss": 0.8611475944519043,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 1.3860576152801514,
+      "rewards/margins": 144.15267944335938,
+      "rewards/rejected": -142.76663208007812,
+      "step": 870
+    },
+    {
+      "epoch": 2.3349950149551346,
+      "grad_norm": 4.1328581182331625e-12,
+      "learning_rate": 1.3444444444444444e-07,
+      "logits/chosen": 7.256162166595459,
+      "logits/rejected": 7.685450553894043,
+      "logps/chosen": -462.0904846191406,
+      "logps/rejected": -1166.178466796875,
+      "loss": 0.024902737140655516,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.212837815284729,
+      "rewards/margins": 140.08041381835938,
+      "rewards/rejected": -138.8675537109375,
+      "step": 880
+    },
+    {
+      "epoch": 2.361581920903955,
+      "grad_norm": 22.725154876708984,
+      "learning_rate": 1.2333333333333333e-07,
+      "logits/chosen": 7.431256294250488,
+      "logits/rejected": 7.865132808685303,
+      "logps/chosen": -456.8827209472656,
+      "logps/rejected": -1153.871337890625,
+      "loss": 0.13207526206970216,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 1.6622031927108765,
+      "rewards/margins": 136.24082946777344,
+      "rewards/rejected": -134.57862854003906,
+      "step": 890
+    },
+    {
+      "epoch": 2.388168826852775,
+      "grad_norm": 132.83956909179688,
+      "learning_rate": 1.1222222222222221e-07,
+      "logits/chosen": 7.010849952697754,
+      "logits/rejected": 7.441749572753906,
+      "logps/chosen": -502.49371337890625,
+      "logps/rejected": -1215.2733154296875,
+      "loss": 0.5922121524810791,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.6824889183044434,
+      "rewards/margins": 148.62466430664062,
+      "rewards/rejected": -151.30715942382812,
+      "step": 900
+    },
+    {
+      "epoch": 2.4147557328015954,
+      "grad_norm": 0.005245895590633154,
+      "learning_rate": 1.011111111111111e-07,
+      "logits/chosen": 6.980523109436035,
+      "logits/rejected": 7.430232048034668,
+      "logps/chosen": -470.41253662109375,
+      "logps/rejected": -1160.4951171875,
+      "loss": 1.195225143432617,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.2118802070617676,
+      "rewards/margins": 144.29278564453125,
+      "rewards/rejected": -147.50466918945312,
+      "step": 910
+    },
+    {
+      "epoch": 2.4413426387504154,
+      "grad_norm": 194.52578735351562,
+      "learning_rate": 9e-08,
+      "logits/chosen": 6.884810447692871,
+      "logits/rejected": 7.503731727600098,
+      "logps/chosen": -440.31976318359375,
+      "logps/rejected": -1206.906494140625,
+      "loss": 0.44526066780090334,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 1.156048059463501,
+      "rewards/margins": 149.27732849121094,
+      "rewards/rejected": -148.1212921142578,
+      "step": 920
+    },
+    {
+      "epoch": 2.4679295446992358,
+      "grad_norm": 1.5737574004387467e-14,
+      "learning_rate": 7.888888888888889e-08,
+      "logits/chosen": 7.322862148284912,
+      "logits/rejected": 7.748003959655762,
+      "logps/chosen": -508.33245849609375,
+      "logps/rejected": -1189.603759765625,
+      "loss": 0.18692436218261718,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.148808479309082,
+      "rewards/margins": 146.20956420898438,
+      "rewards/rejected": -145.06076049804688,
+      "step": 930
+    },
+    {
+      "epoch": 2.4945164506480557,
+      "grad_norm": 0.22959347069263458,
+      "learning_rate": 6.777777777777778e-08,
+      "logits/chosen": 7.375940799713135,
+      "logits/rejected": 7.710402011871338,
+      "logps/chosen": -490.12384033203125,
+      "logps/rejected": -1171.1483154296875,
+      "loss": 0.27915282249450685,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 1.145845651626587,
+      "rewards/margins": 140.29800415039062,
+      "rewards/rejected": -139.1521453857422,
+      "step": 940
+    },
+    {
+      "epoch": 2.521103356596876,
+      "grad_norm": 22.964818954467773,
+      "learning_rate": 5.666666666666666e-08,
+      "logits/chosen": 7.258917331695557,
+      "logits/rejected": 7.766401767730713,
+      "logps/chosen": -467.205322265625,
+      "logps/rejected": -1157.4315185546875,
+      "loss": 1.6006925582885743,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 0.41268739104270935,
+      "rewards/margins": 135.27273559570312,
+      "rewards/rejected": -134.86004638671875,
+      "step": 950
+    },
+    {
+      "epoch": 2.547690262545696,
+      "grad_norm": 3.8648969441501535e-11,
+      "learning_rate": 4.555555555555556e-08,
+      "logits/chosen": 7.018073081970215,
+      "logits/rejected": 7.558196067810059,
+      "logps/chosen": -449.532958984375,
+      "logps/rejected": -1138.4356689453125,
+      "loss": 0.28522279262542727,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -0.8609614372253418,
+      "rewards/margins": 139.2249298095703,
+      "rewards/rejected": -140.0858917236328,
+      "step": 960
+    },
+    {
+      "epoch": 2.5742771684945165,
+      "grad_norm": 84.71375274658203,
+      "learning_rate": 3.4444444444444444e-08,
+      "logits/chosen": 7.130776405334473,
+      "logits/rejected": 7.609295845031738,
+      "logps/chosen": -438.42694091796875,
+      "logps/rejected": -1249.6336669921875,
+      "loss": 0.4750792980194092,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -1.273829460144043,
+      "rewards/margins": 160.90731811523438,
+      "rewards/rejected": -162.18113708496094,
+      "step": 970
+    },
+    {
+      "epoch": 2.6008640744433364,
+      "grad_norm": 85.9113540649414,
+      "learning_rate": 2.3333333333333334e-08,
+      "logits/chosen": 7.113263130187988,
+      "logits/rejected": 7.686596870422363,
+      "logps/chosen": -434.325439453125,
+      "logps/rejected": -1194.6849365234375,
+      "loss": 0.33106160163879395,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.2038366794586182,
+      "rewards/margins": 146.78440856933594,
+      "rewards/rejected": -147.98825073242188,
+      "step": 980
+    },
+    {
+      "epoch": 2.627450980392157,
+      "grad_norm": 2.4605165866986043e-20,
+      "learning_rate": 1.2222222222222222e-08,
+      "logits/chosen": 7.00030517578125,
+      "logits/rejected": 7.477368354797363,
+      "logps/chosen": -450.455078125,
+      "logps/rejected": -1269.2520751953125,
+      "loss": 0.2776132583618164,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -3.280397891998291,
+      "rewards/margins": 163.57626342773438,
+      "rewards/rejected": -166.85665893554688,
+      "step": 990
+    },
+    {
+      "epoch": 2.6540378863409773,
+      "grad_norm": 80.78559112548828,
+      "learning_rate": 1.111111111111111e-09,
+      "logits/chosen": 7.087013244628906,
+      "logits/rejected": 7.507058620452881,
+      "logps/chosen": -490.28857421875,
+      "logps/rejected": -1223.248046875,
+      "loss": 0.2815593719482422,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.167093276977539,
+      "rewards/margins": 151.61813354492188,
+      "rewards/rejected": -153.78524780273438,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }