Training in progress, step 3354, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +228 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:483e158910cfe03a442d52ce93638ab5bf380d13b770b525afb53777bfc5194e
 size 9449344

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7d805d224770203f87507cd409ca03c7d379294618bc6df66dcdb8923b5024d
 size 9449344

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ace7ce133128b7e6644f91e18acfbbcc2d1f1d1046c964b71b6e34cbcf92b3a2
 size 18957003

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cf95319f4c58dbfc6de8610b486ecae741191a50a79dd6828f045be1cd3b60e
 size 18957003

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21ff9a64fc3b709e3db36b3c7c3181c1a80df94bf916bb90382695562b4876a7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd6db25db4cf05e7919262d88ce7dfa06447501cda328a167e8debfb09b35275
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9083047562248399,
   "eval_steps": 500,
-  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4808,6 +4808,231 @@
       "rewards/margins": 25.77750015258789,
       "rewards/rejected": -12.244199752807617,
       "step": 3200
     }
   ],
   "logging_steps": 10,
@@ -4822,7 +5047,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 3354,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 25.77750015258789,
       "rewards/rejected": -12.244199752807617,
       "step": 3200
+    },
+    {
+      "epoch": 1.914268674519159,
+      "grad_norm": 3.401453625428985e-07,
+      "learning_rate": 2.4456893515647507e-07,
+      "logits/chosen": -55.8200569152832,
+      "logits/rejected": -60.309791564941406,
+      "logps/chosen": -3641.48876953125,
+      "logps/rejected": -4029.09130859375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 12.986165046691895,
+      "rewards/margins": 28.325210571289062,
+      "rewards/rejected": -15.339044570922852,
+      "step": 3210
+    },
+    {
+      "epoch": 1.9202325928134785,
+      "grad_norm": 7.95227883543248e-09,
+      "learning_rate": 2.1204464497393828e-07,
+      "logits/chosen": -58.28154754638672,
+      "logits/rejected": -63.397918701171875,
+      "logps/chosen": -3738.774169921875,
+      "logps/rejected": -4127.396484375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 12.601153373718262,
+      "rewards/margins": 32.9376106262207,
+      "rewards/rejected": -20.33645248413086,
+      "step": 3220
+    },
+    {
+      "epoch": 1.9261965111077979,
+      "grad_norm": 5.5718683142913505e-06,
+      "learning_rate": 1.818308335493707e-07,
+      "logits/chosen": -57.85089874267578,
+      "logits/rejected": -62.124717712402344,
+      "logps/chosen": -3759.594482421875,
+      "logps/rejected": -4074.05859375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 12.022012710571289,
+      "rewards/margins": 27.768798828125,
+      "rewards/rejected": -15.746786117553711,
+      "step": 3230
+    },
+    {
+      "epoch": 1.932160429402117,
+      "grad_norm": 2.9493682518477726e-07,
+      "learning_rate": 1.539303171041423e-07,
+      "logits/chosen": -56.495628356933594,
+      "logits/rejected": -59.803489685058594,
+      "logps/chosen": -3937.475341796875,
+      "logps/rejected": -4117.28955078125,
+      "loss": 0.0181,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 13.402850151062012,
+      "rewards/margins": 29.56199073791504,
+      "rewards/rejected": -16.159137725830078,
+      "step": 3240
+    },
+    {
+      "epoch": 1.9381243476964367,
+      "grad_norm": 2.0169439451933613e-09,
+      "learning_rate": 1.2834569623800806e-07,
+      "logits/chosen": -56.14719772338867,
+      "logits/rejected": -61.06328201293945,
+      "logps/chosen": -3900.921142578125,
+      "logps/rejected": -3950.700439453125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 11.294220924377441,
+      "rewards/margins": 27.905467987060547,
+      "rewards/rejected": -16.611248016357422,
+      "step": 3250
+    },
+    {
+      "epoch": 1.944088265990756,
+      "grad_norm": 2.454358383197075e-10,
+      "learning_rate": 1.0507935568670469e-07,
+      "logits/chosen": -59.91279983520508,
+      "logits/rejected": -64.65019226074219,
+      "logps/chosen": -4057.24365234375,
+      "logps/rejected": -4658.7998046875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.831171035766602,
+      "rewards/margins": 30.55777359008789,
+      "rewards/rejected": -16.726600646972656,
+      "step": 3260
+    },
+    {
+      "epoch": 1.9500521842850753,
+      "grad_norm": 6.98909570928663e-05,
+      "learning_rate": 8.413346409967548e-08,
+      "logits/chosen": -57.639564514160156,
+      "logits/rejected": -60.486106872558594,
+      "logps/chosen": -3805.05908203125,
+      "logps/rejected": -3502.89208984375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.168159484863281,
+      "rewards/margins": 26.42257308959961,
+      "rewards/rejected": -13.254412651062012,
+      "step": 3270
+    },
+    {
+      "epoch": 1.9560161025793947,
+      "grad_norm": 9.799998590409587e-10,
+      "learning_rate": 6.5509973837935e-08,
+      "logits/chosen": -56.7869987487793,
+      "logits/rejected": -63.3160285949707,
+      "logps/chosen": -3626.40771484375,
+      "logps/rejected": -4573.03466796875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 14.337489128112793,
+      "rewards/margins": 31.131816864013672,
+      "rewards/rejected": -16.794330596923828,
+      "step": 3280
+    },
+    {
+      "epoch": 1.961980020873714,
+      "grad_norm": 8.010190867935307e-06,
+      "learning_rate": 4.921062079207839e-08,
+      "logits/chosen": -58.120140075683594,
+      "logits/rejected": -62.119712829589844,
+      "logps/chosen": -3722.432861328125,
+      "logps/rejected": -4000.43701171875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 15.0454740524292,
+      "rewards/margins": 28.300750732421875,
+      "rewards/rejected": -13.255276679992676,
+      "step": 3290
+    },
+    {
+      "epoch": 1.9679439391680336,
+      "grad_norm": 0.012528502382338047,
+      "learning_rate": 3.5236924220494186e-08,
+      "logits/chosen": -57.49330520629883,
+      "logits/rejected": -60.7618522644043,
+      "logps/chosen": -4048.438232421875,
+      "logps/rejected": -4347.9658203125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.4490966796875,
+      "rewards/margins": 29.223918914794922,
+      "rewards/rejected": -15.774820327758789,
+      "step": 3300
+    },
+    {
+      "epoch": 1.9739078574623528,
+      "grad_norm": 5.5174933066837184e-08,
+      "learning_rate": 2.3590186607733154e-08,
+      "logits/chosen": -57.35243606567383,
+      "logits/rejected": -63.4393310546875,
+      "logps/chosen": -3737.04150390625,
+      "logps/rejected": -4001.02978515625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 14.624621391296387,
+      "rewards/margins": 27.510913848876953,
+      "rewards/rejected": -12.886293411254883,
+      "step": 3310
+    },
+    {
+      "epoch": 1.9798717757566722,
+      "grad_norm": 2.4484758665010986e-10,
+      "learning_rate": 1.4271493543133174e-08,
+      "logits/chosen": -59.93109130859375,
+      "logits/rejected": -63.264732360839844,
+      "logps/chosen": -3958.082763671875,
+      "logps/rejected": -4254.8232421875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.18006420135498,
+      "rewards/margins": 28.5799503326416,
+      "rewards/rejected": -15.399887084960938,
+      "step": 3320
+    },
+    {
+      "epoch": 1.9858356940509916,
+      "grad_norm": 4.756313121134781e-09,
+      "learning_rate": 7.281713619605723e-09,
+      "logits/chosen": -56.019737243652344,
+      "logits/rejected": -59.69663619995117,
+      "logps/chosen": -4050.05908203125,
+      "logps/rejected": -4002.97802734375,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.66505241394043,
+      "rewards/margins": 27.011245727539062,
+      "rewards/rejected": -13.346193313598633,
+      "step": 3330
+    },
+    {
+      "epoch": 1.9917996123453108,
+      "grad_norm": 1.108175638364628e-05,
+      "learning_rate": 2.6214983526867686e-09,
+      "logits/chosen": -56.985069274902344,
+      "logits/rejected": -62.2716178894043,
+      "logps/chosen": -3683.37255859375,
+      "logps/rejected": -3870.92041015625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 13.052160263061523,
+      "rewards/margins": 27.678844451904297,
+      "rewards/rejected": -14.626681327819824,
+      "step": 3340
+    },
+    {
+      "epoch": 1.9977635306396302,
+      "grad_norm": 2.601581456929125e-07,
+      "learning_rate": 2.912821198075566e-10,
+      "logits/chosen": -56.11452102661133,
+      "logits/rejected": -60.453453063964844,
+      "logps/chosen": -3346.564453125,
+      "logps/rejected": -3288.348388671875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 12.876147270202637,
+      "rewards/margins": 26.675273895263672,
+      "rewards/rejected": -13.799127578735352,
+      "step": 3350
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }