Training in progress, step 6700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:944808fe783edfd9b3c65bab6e9419c6453c9834fc1973f7c62ab61a3de9aae9
 size 35668592

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cad0a278102bf9770bc41be47d29e569bd4f2693c87eb7700d1c115f88c29cf
 size 35668592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db9cdb407f41fd1b11ccd9ecdfd0c6e94912dd1e472526a67c2e3e236dade180
 size 18257163

 version https://git-lfs.github.com/spec/v1
+oid sha256:b424d2e19ea94a34391764dcea1aed8baff5e017c96bfe359256150da0292cd4
 size 18257163

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4229669a62a33714a49d253749de55184a0e99902f7bb8d86266ba2b372b0ec4
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b8dde9f5e22222ecfd67853fa8d0b9ba72a03a3881426f7471f24522b0e590e
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a62fbf57777c52a276ea0715fd511e46f7d6fae15daac2dd598d49f57d5374b
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc7b581468d312885ca28af1cc20f9f1ad44a8af1db5ffa003b6beff388c6ef3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.572585929588372,
   "eval_steps": 500,
-  "global_step": 6600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9908,6 +9908,156 @@
       "rewards/margins": 17.756301879882812,
       "rewards/rejected": -16.33933448791504,
       "step": 6600
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5964138917019122,
   "eval_steps": 500,
+  "global_step": 6700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 17.756301879882812,
       "rewards/rejected": -16.33933448791504,
       "step": 6600
+    },
+    {
+      "epoch": 1.574968725799726,
+      "grad_norm": 1.6681083252478857e-06,
+      "learning_rate": 2.7190977122535254e-05,
+      "logits/chosen": 9.289986610412598,
+      "logits/rejected": 8.851910591125488,
+      "logps/chosen": -3.9985766410827637,
+      "logps/rejected": -181.04971313476562,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4206149578094482,
+      "rewards/margins": 17.674718856811523,
+      "rewards/rejected": -16.254104614257812,
+      "step": 6610
+    },
+    {
+      "epoch": 1.5773515220110799,
+      "grad_norm": 8.596234692959115e-06,
+      "learning_rate": 2.7121921381742445e-05,
+      "logits/chosen": 9.695623397827148,
+      "logits/rejected": 9.04432487487793,
+      "logps/chosen": -3.8987979888916016,
+      "logps/rejected": -181.49603271484375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3905894756317139,
+      "rewards/margins": 17.71683120727539,
+      "rewards/rejected": -16.326242446899414,
+      "step": 6620
+    },
+    {
+      "epoch": 1.579734318222434,
+      "grad_norm": 9.528152986604255e-07,
+      "learning_rate": 2.7052849329510616e-05,
+      "logits/chosen": 9.253401756286621,
+      "logits/rejected": 8.395661354064941,
+      "logps/chosen": -4.091588497161865,
+      "logps/rejected": -182.94107055664062,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3835569620132446,
+      "rewards/margins": 17.877513885498047,
+      "rewards/rejected": -16.493959426879883,
+      "step": 6630
+    },
+    {
+      "epoch": 1.582117114433788,
+      "grad_norm": 3.34082760673482e-05,
+      "learning_rate": 2.698376149680408e-05,
+      "logits/chosen": 9.560027122497559,
+      "logits/rejected": 9.066927909851074,
+      "logps/chosen": -3.810729503631592,
+      "logps/rejected": -178.86024475097656,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3871489763259888,
+      "rewards/margins": 17.55055809020996,
+      "rewards/rejected": -16.163410186767578,
+      "step": 6640
+    },
+    {
+      "epoch": 1.584499910645142,
+      "grad_norm": 2.7486205453897128e-06,
+      "learning_rate": 2.6914658414708483e-05,
+      "logits/chosen": 9.511039733886719,
+      "logits/rejected": 8.858368873596191,
+      "logps/chosen": -4.18659782409668,
+      "logps/rejected": -179.6385955810547,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.388300895690918,
+      "rewards/margins": 17.517656326293945,
+      "rewards/rejected": -16.12935447692871,
+      "step": 6650
+    },
+    {
+      "epoch": 1.5868827068564961,
+      "grad_norm": 2.875137852242915e-06,
+      "learning_rate": 2.684554061442669e-05,
+      "logits/chosen": 8.98546314239502,
+      "logits/rejected": 8.42377758026123,
+      "logps/chosen": -4.1340131759643555,
+      "logps/rejected": -183.18992614746094,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3774447441101074,
+      "rewards/margins": 17.857067108154297,
+      "rewards/rejected": -16.47962188720703,
+      "step": 6660
+    },
+    {
+      "epoch": 1.5892655030678502,
+      "grad_norm": 8.891835818758409e-07,
+      "learning_rate": 2.6776408627274703e-05,
+      "logits/chosen": 8.80525016784668,
+      "logits/rejected": 8.30695629119873,
+      "logps/chosen": -4.148054599761963,
+      "logps/rejected": -184.2656707763672,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4196046590805054,
+      "rewards/margins": 17.907718658447266,
+      "rewards/rejected": -16.48811149597168,
+      "step": 6670
+    },
+    {
+      "epoch": 1.5916482992792043,
+      "grad_norm": 5.344471446733223e-06,
+      "learning_rate": 2.6707262984677573e-05,
+      "logits/chosen": 9.732979774475098,
+      "logits/rejected": 9.241010665893555,
+      "logps/chosen": -3.8970329761505127,
+      "logps/rejected": -179.18814086914062,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3821308612823486,
+      "rewards/margins": 17.509174346923828,
+      "rewards/rejected": -16.12704086303711,
+      "step": 6680
+    },
+    {
+      "epoch": 1.5940310954905583,
+      "grad_norm": 1.1200794688193128e-05,
+      "learning_rate": 2.6638104218165332e-05,
+      "logits/chosen": 8.704614639282227,
+      "logits/rejected": 8.213298797607422,
+      "logps/chosen": -4.218519687652588,
+      "logps/rejected": -181.6812744140625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.414750576019287,
+      "rewards/margins": 17.60392189025879,
+      "rewards/rejected": -16.189170837402344,
+      "step": 6690
+    },
+    {
+      "epoch": 1.5964138917019122,
+      "grad_norm": 3.7125805647519883e-06,
+      "learning_rate": 2.6568932859368905e-05,
+      "logits/chosen": 9.12821102142334,
+      "logits/rejected": 8.672597885131836,
+      "logps/chosen": -4.364258289337158,
+      "logps/rejected": -182.12783813476562,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3750208616256714,
+      "rewards/margins": 17.705333709716797,
+      "rewards/rejected": -16.330312728881836,
+      "step": 6700
     }
   ],
   "logging_steps": 10,