Training in progress, step 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a26a2ff6112a076b5c8539d9ff44f6eaf49e13976e20d6dc004a8a4895aea5e
 size 30322120

 version https://git-lfs.github.com/spec/v1
+oid sha256:a635d848d65f59777d485a4cee215eb528eaa458d65014bfd03ab9b8a4b46333
 size 30322120

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c8b131cdf809e3bf8e8086ded78bd8082c724112b6b1d3e448f2d873c67bef
 size 60854466

 version https://git-lfs.github.com/spec/v1
+oid sha256:a69bcec7cb99fe2ec8bcacaec1905a1f4eae223090e818b34a18929c6a587604
 size 60854466

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ca652a881740fc7aa9fa81865c0e8757bd9580b658c87c8125e22e6bfdcaf17
 size 30402542

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8f6c735f4230b47f7793f3c236777cea263c2c684b8e532e86f150fc0afc335
 size 30402542

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:015707cb16790250630febca682498cb5d3456d5a13443b953687f19dc7d59ed
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2def2cd24154d8cecbaa07c36ae27e5ebb9b7273a78abfea27aa67c480e4ae2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.008229606007612385,
   "eval_steps": 500,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,156 @@
       "rewards/margins": 9.52292537689209,
       "rewards/rejected": -10.617974281311035,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -321,7 +471,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.012344409011418579,
   "eval_steps": 500,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 9.52292537689209,
       "rewards/rejected": -10.617974281311035,
       "step": 20
+    },
+    {
+      "epoch": 0.008641086307993005,
+      "grad_norm": 1.421184778213501,
+      "learning_rate": 5.7422070843492734e-05,
+      "logits/chosen": -1.2648671865463257,
+      "logits/rejected": -1.159667730331421,
+      "logps/chosen": -388.2962341308594,
+      "logps/rejected": -428.2628479003906,
+      "loss": 0.01,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8064693808555603,
+      "rewards/margins": 9.668671607971191,
+      "rewards/rejected": -10.475141525268555,
+      "step": 21
+    },
+    {
+      "epoch": 0.009052566608373624,
+      "grad_norm": 0.7935642004013062,
+      "learning_rate": 4.6417320502100316e-05,
+      "logits/chosen": -1.5795066356658936,
+      "logits/rejected": -1.5574439764022827,
+      "logps/chosen": -673.1815185546875,
+      "logps/rejected": -578.0742797851562,
+      "loss": 0.0042,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4215660095214844,
+      "rewards/margins": 10.199383735656738,
+      "rewards/rejected": -11.620948791503906,
+      "step": 22
+    },
+    {
+      "epoch": 0.009464046908754244,
+      "grad_norm": 0.5888037085533142,
+      "learning_rate": 3.6257601025131026e-05,
+      "logits/chosen": -1.356429934501648,
+      "logits/rejected": -0.7343645095825195,
+      "logps/chosen": -558.6991577148438,
+      "logps/rejected": -601.5557861328125,
+      "loss": 0.0033,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7459613680839539,
+      "rewards/margins": 7.877223968505859,
+      "rewards/rejected": -8.623186111450195,
+      "step": 23
+    },
+    {
+      "epoch": 0.009875527209134862,
+      "grad_norm": 1.5047943592071533,
+      "learning_rate": 2.7103137257858868e-05,
+      "logits/chosen": -1.4022102355957031,
+      "logits/rejected": -1.2865889072418213,
+      "logps/chosen": -505.72802734375,
+      "logps/rejected": -496.80517578125,
+      "loss": 0.0069,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9657745361328125,
+      "rewards/margins": 9.834795951843262,
+      "rewards/rejected": -10.800569534301758,
+      "step": 24
+    },
+    {
+      "epoch": 0.010287007509515483,
+      "grad_norm": 10.904205322265625,
+      "learning_rate": 1.9098300562505266e-05,
+      "logits/chosen": -1.3055310249328613,
+      "logits/rejected": -1.1012433767318726,
+      "logps/chosen": -544.568115234375,
+      "logps/rejected": -463.7269592285156,
+      "loss": 0.0883,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.7714694738388062,
+      "rewards/margins": 10.789080619812012,
+      "rewards/rejected": -12.560550689697266,
+      "step": 25
+    },
+    {
+      "epoch": 0.010698487809896101,
+      "grad_norm": 3.510283946990967,
+      "learning_rate": 1.2369331995613665e-05,
+      "logits/chosen": -1.4968920946121216,
+      "logits/rejected": -1.4846692085266113,
+      "logps/chosen": -702.6878051757812,
+      "logps/rejected": -574.542236328125,
+      "loss": 0.0342,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20018263161182404,
+      "rewards/margins": 13.992487907409668,
+      "rewards/rejected": -13.792304992675781,
+      "step": 26
+    },
+    {
+      "epoch": 0.011109968110276721,
+      "grad_norm": 1.6500478982925415,
+      "learning_rate": 7.022351411174866e-06,
+      "logits/chosen": -1.2855603694915771,
+      "logits/rejected": -0.9878661632537842,
+      "logps/chosen": -484.6141662597656,
+      "logps/rejected": -587.2501831054688,
+      "loss": 0.0106,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0036479830741882324,
+      "rewards/margins": 11.438243865966797,
+      "rewards/rejected": -11.434595108032227,
+      "step": 27
+    },
+    {
+      "epoch": 0.01152144841065734,
+      "grad_norm": 0.5148972868919373,
+      "learning_rate": 3.1416838871368924e-06,
+      "logits/chosen": -1.3569444417953491,
+      "logits/rejected": -1.2854053974151611,
+      "logps/chosen": -412.2033996582031,
+      "logps/rejected": -440.2686767578125,
+      "loss": 0.0021,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6896465420722961,
+      "rewards/margins": 11.664054870605469,
+      "rewards/rejected": -12.3537015914917,
+      "step": 28
+    },
+    {
+      "epoch": 0.011932928711037958,
+      "grad_norm": 1.212573766708374,
+      "learning_rate": 7.885298685522235e-07,
+      "logits/chosen": -1.547814965248108,
+      "logits/rejected": -1.5019885301589966,
+      "logps/chosen": -630.9375,
+      "logps/rejected": -641.284423828125,
+      "loss": 0.0056,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.26978832483291626,
+      "rewards/margins": 12.407413482666016,
+      "rewards/rejected": -12.677202224731445,
+      "step": 29
+    },
+    {
+      "epoch": 0.012344409011418579,
+      "grad_norm": 1.2990347146987915,
+      "learning_rate": 0.0,
+      "logits/chosen": -1.6665741205215454,
+      "logits/rejected": -1.70499849319458,
+      "logps/chosen": -732.9165649414062,
+      "logps/rejected": -663.5682983398438,
+      "loss": 0.0058,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8148876428604126,
+      "rewards/margins": 12.031583786010742,
+      "rewards/rejected": -12.846470832824707,
+      "step": 30
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }