Training in progress, epoch 0, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85802343458730f4e02e6074fcd5b9f45d40f89f9783df5919ba436df9b54d9
 size 3422229144

 version https://git-lfs.github.com/spec/v1
+oid sha256:a56b5df78edf5b3fb567bbf51cfe04d6b9650cbc6910e4b129e3fd4ded457bfc
 size 3422229144

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12e7e2c13bac2182a08f20e726e2f466f1d33a94fb79c50135c8b21f5d62c28b
 size 1738272709

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd83f0b7b55b377877d04abc7e1db1bc6ad975a510498e854f134608cae3e1e1
 size 1738272709

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c800b778fa7e115e4c34de8529902de8b61c9a1b4bab3eb8295d06dafff030e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:798d7db74a31e880da9afa707fdd136569473cae8b0e37ecd75546b796dce264
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebcc2399037993f023f137c65edec3c249a67d9c697cb3b86a0c75a31475d419
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.5840160250663757,
   "best_model_checkpoint": null,
-  "epoch": 0.4889975550122249,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -174,6 +174,172 @@
       "eval_samples_per_second": 11.253,
       "eval_steps_per_second": 0.719,
       "step": 50
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.3611069321632385,
   "best_model_checkpoint": null,
+  "epoch": 0.9779951100244498,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.253,
       "eval_steps_per_second": 0.719,
       "step": 50
+    },
+    {
+      "epoch": 0.5378973105134475,
+      "grad_norm": 0.0003851531946565956,
+      "learning_rate": 8.442723263480497e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.974880039691925,
+      "logps/chosen": -64.03724670410156,
+      "logps/rejected": -108.10626220703125,
+      "loss": 0.3436,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 68.7229995727539,
+      "rewards/margins": 85.6202621459961,
+      "rewards/rejected": -16.897260665893555,
+      "step": 55
+    },
+    {
+      "epoch": 0.58679706601467,
+      "grad_norm": 0.0005342594813555479,
+      "learning_rate": 9.22445689898795e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.6203755140304565,
+      "logps/chosen": -81.26509857177734,
+      "logps/rejected": -104.5843276977539,
+      "loss": 0.3086,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": 69.86774444580078,
+      "rewards/margins": 82.07366180419922,
+      "rewards/rejected": -12.205923080444336,
+      "step": 60
+    },
+    {
+      "epoch": 0.6356968215158925,
+      "grad_norm": 4.174908845282904e-13,
+      "learning_rate": 1.0006190534495405e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.4278396666049957,
+      "logps/chosen": -39.61051940917969,
+      "logps/rejected": -92.36933898925781,
+      "loss": 0.2063,
+      "rewards/accuracies": 0.745312511920929,
+      "rewards/chosen": 72.73802947998047,
+      "rewards/margins": 85.91956329345703,
+      "rewards/rejected": -13.18153190612793,
+      "step": 65
+    },
+    {
+      "epoch": 0.684596577017115,
+      "grad_norm": 0.002292018150910735,
+      "learning_rate": 1.0787924170002858e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.28609800338745117,
+      "logps/chosen": -33.6094856262207,
+      "logps/rejected": -84.01991271972656,
+      "loss": 0.1113,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": 91.45848083496094,
+      "rewards/margins": 93.42339324951172,
+      "rewards/rejected": -1.96491277217865,
+      "step": 70
+    },
+    {
+      "epoch": 0.7334963325183375,
+      "grad_norm": 0.6431168913841248,
+      "learning_rate": 1.156965780551031e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.2203584611415863,
+      "logps/chosen": -40.122108459472656,
+      "logps/rejected": -93.89823150634766,
+      "loss": 0.1585,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": 74.9581069946289,
+      "rewards/margins": 88.4476318359375,
+      "rewards/rejected": -13.489527702331543,
+      "step": 75
+    },
+    {
+      "epoch": 0.78239608801956,
+      "grad_norm": 18.794679641723633,
+      "learning_rate": 1.2351391441017764e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.35011741518974304,
+      "logps/chosen": -43.437705993652344,
+      "logps/rejected": -116.1953353881836,
+      "loss": 0.1879,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 74.13380432128906,
+      "rewards/margins": 96.4022445678711,
+      "rewards/rejected": -22.268436431884766,
+      "step": 80
+    },
+    {
+      "epoch": 0.8312958435207825,
+      "grad_norm": 53.7838020324707,
+      "learning_rate": 1.3133125076525218e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.5478571653366089,
+      "logps/chosen": -37.990631103515625,
+      "logps/rejected": -131.7003173828125,
+      "loss": 0.2416,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": 83.08360290527344,
+      "rewards/margins": 111.3319320678711,
+      "rewards/rejected": -28.248327255249023,
+      "step": 85
+    },
+    {
+      "epoch": 0.8801955990220048,
+      "grad_norm": 33.947601318359375,
+      "learning_rate": 1.3914858712032673e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.736972451210022,
+      "logps/chosen": -23.155391693115234,
+      "logps/rejected": -108.7579116821289,
+      "loss": 0.4442,
+      "rewards/accuracies": 0.676562488079071,
+      "rewards/chosen": 70.76764678955078,
+      "rewards/margins": 92.23793029785156,
+      "rewards/rejected": -21.47028923034668,
+      "step": 90
+    },
+    {
+      "epoch": 0.9290953545232273,
+      "grad_norm": 9.191290306978517e-13,
+      "learning_rate": 1.4696592347540126e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.5948934555053711,
+      "logps/chosen": -22.43905258178711,
+      "logps/rejected": -86.31062316894531,
+      "loss": 0.1939,
+      "rewards/accuracies": 0.7203124761581421,
+      "rewards/chosen": 75.99381256103516,
+      "rewards/margins": 85.18391418457031,
+      "rewards/rejected": -9.190110206604004,
+      "step": 95
+    },
+    {
+      "epoch": 0.9779951100244498,
+      "grad_norm": 2.054981402058176e-12,
+      "learning_rate": 1.547832598304758e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.5537346005439758,
+      "logps/chosen": -28.839187622070312,
+      "logps/rejected": -72.35997009277344,
+      "loss": 0.2644,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 70.51815795898438,
+      "rewards/margins": 75.06769561767578,
+      "rewards/rejected": -4.549544334411621,
+      "step": 100
+    },
+    {
+      "epoch": 0.9779951100244498,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": -0.4462790787220001,
+      "eval_logps/chosen": -201.78216552734375,
+      "eval_logps/rejected": -73.33938598632812,
+      "eval_loss": 0.3611069321632385,
+      "eval_rewards/accuracies": 0.7414772510528564,
+      "eval_rewards/chosen": 1.3431318998336792,
+      "eval_rewards/margins": 1.3155231475830078,
+      "eval_rewards/rejected": 0.027608675882220268,
+      "eval_runtime": 61.2942,
+      "eval_samples_per_second": 11.241,
+      "eval_steps_per_second": 0.718,
+      "step": 100
     }
   ],
   "logging_steps": 5,