Training in progress, epoch 0, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d4b544e347b4f8e2a4742b0ff67170ed51fff3a887807982bb031c6d49dbad9
 size 2751499016

 version https://git-lfs.github.com/spec/v1
+oid sha256:5283ab5dc1b04471ebdac9c69d4ddc3c9daadb1cd9659495feafd52deba15535
 size 2751499016

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30b548386475ae7a25a886219f15374e14106e03a6b00193c76fd328aa34450e
 size 1397530085

 version https://git-lfs.github.com/spec/v1
+oid sha256:7343fb23d7b9ae991994bd95b71751b6fe75a7696f84ec85a1c9ef768b87760c
 size 1397530085

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e2011629d8bed3ef560fa11175cac55684c4e12a72634bb24abf767b6c7399
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb229f1eff16c146ee732ddac4ee46d69bfb16d06dc3d643f8561c719332e846
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:589a29a7a9601ca691e8af1337d86f4213715f3591d526b3325012bd0d4260dd
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.05044383555650711,
   "best_model_checkpoint": null,
-  "epoch": 0.00764876854826373,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -174,6 +174,338 @@
       "eval_samples_per_second": 11.342,
       "eval_steps_per_second": 5.679,
       "step": 50
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.024217354133725166,
   "best_model_checkpoint": null,
+  "epoch": 0.02294630564479119,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.342,
       "eval_steps_per_second": 5.679,
       "step": 50
+    },
+    {
+      "epoch": 0.008413645403090102,
+      "grad_norm": 0.0028622462414205074,
+      "learning_rate": 0.00014993216160618053,
+      "logits/chosen": 2.2500367164611816,
+      "logits/rejected": 0.9480382204055786,
+      "logps/chosen": -436.58172607421875,
+      "logps/rejected": -573.2215576171875,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.8464500904083252,
+      "rewards/margins": 13.733373641967773,
+      "rewards/rejected": -15.579824447631836,
+      "step": 55
+    },
+    {
+      "epoch": 0.009178522257916476,
+      "grad_norm": 0.00047387686208821833,
+      "learning_rate": 0.00016381476916230834,
+      "logits/chosen": 2.368880271911621,
+      "logits/rejected": 1.2400633096694946,
+      "logps/chosen": -460.0272521972656,
+      "logps/rejected": -477.02166748046875,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.5477186441421509,
+      "rewards/margins": 11.986092567443848,
+      "rewards/rejected": -13.53381061553955,
+      "step": 60
+    },
+    {
+      "epoch": 0.009943399112742848,
+      "grad_norm": 2.4312286768690683e-05,
+      "learning_rate": 0.00017769737671843617,
+      "logits/chosen": 2.1582725048065186,
+      "logits/rejected": 0.8890345692634583,
+      "logps/chosen": -359.4410705566406,
+      "logps/rejected": -731.4852294921875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1775275468826294,
+      "rewards/margins": 19.947010040283203,
+      "rewards/rejected": -21.12453842163086,
+      "step": 65
+    },
+    {
+      "epoch": 0.01070827596756922,
+      "grad_norm": 0.0019105683313682675,
+      "learning_rate": 0.00019157998427456397,
+      "logits/chosen": 1.9572877883911133,
+      "logits/rejected": 0.4613746106624603,
+      "logps/chosen": -433.6973571777344,
+      "logps/rejected": -575.4284057617188,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.012183904647827,
+      "rewards/margins": 13.66297721862793,
+      "rewards/rejected": -16.675161361694336,
+      "step": 70
+    },
+    {
+      "epoch": 0.011473152822395595,
+      "grad_norm": 0.003828815184533596,
+      "learning_rate": 0.0002054625918306918,
+      "logits/chosen": NaN,
+      "logits/rejected": 0.8698433041572571,
+      "logps/chosen": -400.0428161621094,
+      "logps/rejected": -832.5679931640625,
+      "loss": 0.0693,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -3.338275194168091,
+      "rewards/margins": 21.856613159179688,
+      "rewards/rejected": -25.194889068603516,
+      "step": 75
+    },
+    {
+      "epoch": 0.012238029677221967,
+      "grad_norm": 0.010469191707670689,
+      "learning_rate": 0.00021934519938681966,
+      "logits/chosen": 1.8671172857284546,
+      "logits/rejected": 0.7096843719482422,
+      "logps/chosen": -443.547119140625,
+      "logps/rejected": -688.80126953125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.6706607341766357,
+      "rewards/margins": 15.804478645324707,
+      "rewards/rejected": -19.47513771057129,
+      "step": 80
+    },
+    {
+      "epoch": 0.013002906532048341,
+      "grad_norm": 2.6392877771286294e-05,
+      "learning_rate": 0.00023322780694294746,
+      "logits/chosen": 1.9022146463394165,
+      "logits/rejected": 0.36020129919052124,
+      "logps/chosen": -396.5116271972656,
+      "logps/rejected": -583.2808837890625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.5602790117263794,
+      "rewards/margins": 15.830926895141602,
+      "rewards/rejected": -17.391204833984375,
+      "step": 85
+    },
+    {
+      "epoch": 0.013767783386874713,
+      "grad_norm": 1.727592433553582e-07,
+      "learning_rate": 0.0002471104144990753,
+      "logits/chosen": 1.5785582065582275,
+      "logits/rejected": 0.47088107466697693,
+      "logps/chosen": -400.20953369140625,
+      "logps/rejected": -640.7406616210938,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2463744431734085,
+      "rewards/margins": 18.521793365478516,
+      "rewards/rejected": -18.768169403076172,
+      "step": 90
+    },
+    {
+      "epoch": 0.014532660241701086,
+      "grad_norm": 5.100153430248611e-05,
+      "learning_rate": 0.0002609930220552031,
+      "logits/chosen": 1.551195502281189,
+      "logits/rejected": 0.6250472664833069,
+      "logps/chosen": -400.8873596191406,
+      "logps/rejected": -630.4702758789062,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.10455240309238434,
+      "rewards/margins": 17.793054580688477,
+      "rewards/rejected": -17.897607803344727,
+      "step": 95
+    },
+    {
+      "epoch": 0.01529753709652746,
+      "grad_norm": 1.2168807472789922e-07,
+      "learning_rate": 0.00027487562961133095,
+      "logits/chosen": 2.179185390472412,
+      "logits/rejected": 0.9079009890556335,
+      "logps/chosen": -295.3583984375,
+      "logps/rejected": -859.0484619140625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.7290161848068237,
+      "rewards/margins": 25.750385284423828,
+      "rewards/rejected": -25.02136993408203,
+      "step": 100
+    },
+    {
+      "epoch": 0.01529753709652746,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": 0.5695675611495972,
+      "eval_logps/chosen": -330.794189453125,
+      "eval_logps/rejected": -718.6740112304688,
+      "eval_loss": 0.02476140484213829,
+      "eval_rewards/accuracies": 0.9811594486236572,
+      "eval_rewards/chosen": 0.7904098033905029,
+      "eval_rewards/margins": 22.044944763183594,
+      "eval_rewards/rejected": -21.254533767700195,
+      "eval_runtime": 62.4706,
+      "eval_samples_per_second": 11.029,
+      "eval_steps_per_second": 5.523,
+      "step": 100
+    },
+    {
+      "epoch": 0.016062413951353834,
+      "grad_norm": 8.499349557489211e-10,
+      "learning_rate": 0.0002776520392843145,
+      "logits/chosen": 2.1345207691192627,
+      "logits/rejected": 0.47184300422668457,
+      "logps/chosen": -315.34930419921875,
+      "logps/rejected": -695.0374145507812,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.8640382885932922,
+      "rewards/margins": 21.742961883544922,
+      "rewards/rejected": -20.878923416137695,
+      "step": 105
+    },
+    {
+      "epoch": 0.016827290806180204,
+      "grad_norm": 3.2272314456349704e-06,
+      "learning_rate": 0.0002776515849417652,
+      "logits/chosen": 2.066007614135742,
+      "logits/rejected": 0.7821122407913208,
+      "logps/chosen": -273.3198547363281,
+      "logps/rejected": -622.60205078125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.230340600013733,
+      "rewards/margins": 17.653335571289062,
+      "rewards/rejected": -16.42299461364746,
+      "step": 110
+    },
+    {
+      "epoch": 0.017592167661006578,
+      "grad_norm": 2.764949513789361e-08,
+      "learning_rate": 0.00027765078110616136,
+      "logits/chosen": 2.0481059551239014,
+      "logits/rejected": 0.06188444048166275,
+      "logps/chosen": -310.6258239746094,
+      "logps/rejected": -710.1292724609375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.083168387413025,
+      "rewards/margins": 23.025583267211914,
+      "rewards/rejected": -21.942415237426758,
+      "step": 115
+    },
+    {
+      "epoch": 0.018357044515832952,
+      "grad_norm": 1.2643829450098565e-06,
+      "learning_rate": 0.00027764962777952664,
+      "logits/chosen": 2.1907763481140137,
+      "logits/rejected": 1.0400992631912231,
+      "logps/chosen": -307.0046081542969,
+      "logps/rejected": -755.6473999023438,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.624768853187561,
+      "rewards/margins": 22.524160385131836,
+      "rewards/rejected": -20.89939308166504,
+      "step": 120
+    },
+    {
+      "epoch": 0.019121921370659323,
+      "grad_norm": 9.230769360685231e-13,
+      "learning_rate": 0.0002776481249647646,
+      "logits/chosen": 2.0665574073791504,
+      "logits/rejected": 0.20953090488910675,
+      "logps/chosen": -278.8282775878906,
+      "logps/rejected": -763.1021728515625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.6925491094589233,
+      "rewards/margins": 24.283218383789062,
+      "rewards/rejected": -23.590667724609375,
+      "step": 125
+    },
+    {
+      "epoch": 0.019886798225485697,
+      "grad_norm": 2.1791736344312085e-06,
+      "learning_rate": 0.00027764627266565854,
+      "logits/chosen": 2.2263553142547607,
+      "logits/rejected": 0.7493933439254761,
+      "logps/chosen": -355.59344482421875,
+      "logps/rejected": -662.4058837890625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3247101306915283,
+      "rewards/margins": 20.672582626342773,
+      "rewards/rejected": -19.34787368774414,
+      "step": 130
+    },
+    {
+      "epoch": 0.02065167508031207,
+      "grad_norm": 1.3962798220745753e-05,
+      "learning_rate": 0.00027764407088687153,
+      "logits/chosen": 2.0784218311309814,
+      "logits/rejected": 0.6179172396659851,
+      "logps/chosen": -327.31329345703125,
+      "logps/rejected": -678.7785034179688,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.206441044807434,
+      "rewards/margins": 20.837465286254883,
+      "rewards/rejected": -19.631023406982422,
+      "step": 135
+    },
+    {
+      "epoch": 0.02141655193513844,
+      "grad_norm": 5.620458409794082e-07,
+      "learning_rate": 0.0002776415196339467,
+      "logits/chosen": 1.9481678009033203,
+      "logits/rejected": 0.5887425541877747,
+      "logps/chosen": -309.68682861328125,
+      "logps/rejected": -587.2570190429688,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.8636436462402344,
+      "rewards/margins": 18.32933807373047,
+      "rewards/rejected": -17.465694427490234,
+      "step": 140
+    },
+    {
+      "epoch": 0.022181428789964815,
+      "grad_norm": 1.5234973034239374e-06,
+      "learning_rate": 0.00027763861891330675,
+      "logits/chosen": 1.926863670349121,
+      "logits/rejected": 0.5701156854629517,
+      "logps/chosen": -344.00811767578125,
+      "logps/rejected": -644.8851318359375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.6971412897109985,
+      "rewards/margins": 20.91071891784668,
+      "rewards/rejected": -19.213577270507812,
+      "step": 145
+    },
+    {
+      "epoch": 0.02294630564479119,
+      "grad_norm": 3.310283773316769e-06,
+      "learning_rate": 0.0002776353687322543,
+      "logits/chosen": 1.9721519947052002,
+      "logits/rejected": 0.6008085012435913,
+      "logps/chosen": -346.241455078125,
+      "logps/rejected": -690.4124755859375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.7422004342079163,
+      "rewards/margins": 21.550968170166016,
+      "rewards/rejected": -20.808767318725586,
+      "step": 150
+    },
+    {
+      "epoch": 0.02294630564479119,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": 0.5568678379058838,
+      "eval_logps/chosen": -325.7964782714844,
+      "eval_logps/rejected": -757.2901000976562,
+      "eval_loss": 0.024217354133725166,
+      "eval_rewards/accuracies": 0.9811594486236572,
+      "eval_rewards/chosen": 0.9729923605918884,
+      "eval_rewards/margins": 23.638286590576172,
+      "eval_rewards/rejected": -22.665294647216797,
+      "eval_runtime": 63.3584,
+      "eval_samples_per_second": 10.875,
+      "eval_steps_per_second": 5.445,
+      "step": 150
     }
   ],
   "logging_steps": 5,