Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59ecd18eec1f27b2434d729c993e97a6c950934b3fc7d170d06203a4b22faf33
 size 431331112

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee538636744e0acbe2239a943ad435e5614264522618ad93fab75142dd2ec13
 size 431331112

last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ccc451fc82781f109bb7c16f02dbb15a7f815a88c9ae16090b0e4a6948306fd
+size 325177765

last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa03c7035ce362f4a36232a00d556316b0470c05122c1ef9070f16cca2e710b
+size 325177765

last-checkpoint/global_step200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e65a63a4b0dc1db26d7f33c1e837810aa366c61c33a053879e3e05dd1a80b741
+size 325177765

last-checkpoint/global_step200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:266655c35b3c6c6d27d4702e03e32041a3c2dc2265eec4453ab2bdd297c3b732
+size 325177765

last-checkpoint/global_step200/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26588628f6cd900302e44e8309320238d062e557c38863d5c4517ee078bbd7e0
+size 431463321

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step150~~


1	+ global_step200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dc21751f56a807ad2a7d09eea3bbe867a0c8e0f3d829004cfe097808a8a849d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:81d5f83aeb4b3f559bd28377336d47659b320e7f6ef2e5a723d284716278a151
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69adbd9997461473344beb9c44d2e496e24fbc4d6fe69245ab0bd127882efd96
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2626437dcb133ffcf003ac89603f8cce07459b93a98d760cd9419e0d6a994067
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baaf7026d9e588ca2ba5b4de8768a379982b7530f39e0b88fa44af9bef8e8bc9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae777e24d50cb7159634e1245f0697ba0fc64d5b26d535f2c80e411371a90b1c
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec81cbdf599c90b49fb13998f6e46e2492b55345216231b6ce078f88cf04eae
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:afc5a67564eebcfc961e8f1406a7418cc73497c2935a39af0232ef59f8153a6a
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f335e4879fd62188324ceea55afd3458a938867b1a141c427526220c3441539
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:61cf7a6562a1b537ed732fd397b8f4fbad25c227aed55701c0cfe78f176c42d9
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.07377000898122787,
   "best_model_checkpoint": null,
-  "epoch": 0.09740259740259741,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -506,6 +506,172 @@
       "eval_samples_per_second": 44.338,
       "eval_steps_per_second": 0.353,
       "step": 150
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.05630422756075859,
   "best_model_checkpoint": null,
+  "epoch": 0.12987012987012986,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 44.338,
       "eval_steps_per_second": 0.353,
       "step": 150
+    },
+    {
+      "epoch": 0.10064935064935066,
+      "grad_norm": 0.891044557094574,
+      "learning_rate": 0.00011565544706162286,
+      "logits/chosen": 6.451029300689697,
+      "logits/rejected": 7.018620491027832,
+      "logps/chosen": -318.9430236816406,
+      "logps/rejected": -354.2622985839844,
+      "loss": 0.077,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -2.790806293487549,
+      "rewards/margins": 10.650590896606445,
+      "rewards/rejected": -13.441396713256836,
+      "step": 155
+    },
+    {
+      "epoch": 0.1038961038961039,
+      "grad_norm": 1.011932134628296,
+      "learning_rate": 0.00011565380196097788,
+      "logits/chosen": 6.38694953918457,
+      "logits/rejected": 6.985430717468262,
+      "logps/chosen": -305.1867370605469,
+      "logps/rejected": -316.77239990234375,
+      "loss": 0.0743,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -1.8528194427490234,
+      "rewards/margins": 8.657999038696289,
+      "rewards/rejected": -10.510818481445312,
+      "step": 160
+    },
+    {
+      "epoch": 0.10714285714285714,
+      "grad_norm": 1.1229149103164673,
+      "learning_rate": 0.00011565201129393704,
+      "logits/chosen": 6.276331424713135,
+      "logits/rejected": 6.919455051422119,
+      "logps/chosen": -323.6394348144531,
+      "logps/rejected": -360.06695556640625,
+      "loss": 0.0711,
+      "rewards/accuracies": 0.9703124761581421,
+      "rewards/chosen": -3.3554577827453613,
+      "rewards/margins": 9.554231643676758,
+      "rewards/rejected": -12.909688949584961,
+      "step": 165
+    },
+    {
+      "epoch": 0.11038961038961038,
+      "grad_norm": 0.8342244029045105,
+      "learning_rate": 0.00011565007506500828,
+      "logits/chosen": 5.989048957824707,
+      "logits/rejected": 6.676814079284668,
+      "logps/chosen": -304.5875549316406,
+      "logps/rejected": -326.0283203125,
+      "loss": 0.0981,
+      "rewards/accuracies": 0.9703124761581421,
+      "rewards/chosen": -1.7597744464874268,
+      "rewards/margins": 8.476037979125977,
+      "rewards/rejected": -10.235812187194824,
+      "step": 170
+    },
+    {
+      "epoch": 0.11363636363636363,
+      "grad_norm": 0.7202894687652588,
+      "learning_rate": 0.0001156479932790661,
+      "logits/chosen": 6.15761661529541,
+      "logits/rejected": 6.778907775878906,
+      "logps/chosen": -302.4050598144531,
+      "logps/rejected": -324.09765625,
+      "loss": 0.0923,
+      "rewards/accuracies": 0.9703124761581421,
+      "rewards/chosen": -0.7549916505813599,
+      "rewards/margins": 8.769140243530273,
+      "rewards/rejected": -9.524131774902344,
+      "step": 175
+    },
+    {
+      "epoch": 0.11688311688311688,
+      "grad_norm": 0.753760576248169,
+      "learning_rate": 0.00011564576594135137,
+      "logits/chosen": 6.395578384399414,
+      "logits/rejected": 7.083353519439697,
+      "logps/chosen": -313.22186279296875,
+      "logps/rejected": -348.41339111328125,
+      "loss": 0.0507,
+      "rewards/accuracies": 0.9828125238418579,
+      "rewards/chosen": -3.535522937774658,
+      "rewards/margins": 8.79172420501709,
+      "rewards/rejected": -12.327247619628906,
+      "step": 180
+    },
+    {
+      "epoch": 0.12012987012987013,
+      "grad_norm": 0.6927999258041382,
+      "learning_rate": 0.00011564339305747142,
+      "logits/chosen": 6.240847587585449,
+      "logits/rejected": 6.926623344421387,
+      "logps/chosen": -318.8568420410156,
+      "logps/rejected": -346.41680908203125,
+      "loss": 0.053,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -3.0302348136901855,
+      "rewards/margins": 10.297189712524414,
+      "rewards/rejected": -13.327425003051758,
+      "step": 185
+    },
+    {
+      "epoch": 0.12337662337662338,
+      "grad_norm": 0.2692127227783203,
+      "learning_rate": 0.00011564087463339999,
+      "logits/chosen": 5.879881858825684,
+      "logits/rejected": 6.644034385681152,
+      "logps/chosen": -300.416259765625,
+      "logps/rejected": -339.57037353515625,
+      "loss": 0.0423,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -1.8148984909057617,
+      "rewards/margins": 9.979120254516602,
+      "rewards/rejected": -11.794018745422363,
+      "step": 190
+    },
+    {
+      "epoch": 0.1266233766233766,
+      "grad_norm": 0.7986512184143066,
+      "learning_rate": 0.0001156382106754772,
+      "logits/chosen": 5.803470611572266,
+      "logits/rejected": 6.645857334136963,
+      "logps/chosen": -310.81170654296875,
+      "logps/rejected": -348.056396484375,
+      "loss": 0.0403,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.6157710552215576,
+      "rewards/margins": 10.561070442199707,
+      "rewards/rejected": -13.176841735839844,
+      "step": 195
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "grad_norm": 0.7699182629585266,
+      "learning_rate": 0.00011563540119040956,
+      "logits/chosen": 6.0391011238098145,
+      "logits/rejected": 6.851220607757568,
+      "logps/chosen": -306.738525390625,
+      "logps/rejected": -371.85369873046875,
+      "loss": 0.0557,
+      "rewards/accuracies": 0.9828125238418579,
+      "rewards/chosen": -1.9803781509399414,
+      "rewards/margins": 12.751678466796875,
+      "rewards/rejected": -14.732057571411133,
+      "step": 200
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "eval_logits/chosen": 6.243391513824463,
+      "eval_logits/rejected": 6.946824073791504,
+      "eval_logps/chosen": -326.7683410644531,
+      "eval_logps/rejected": -375.8028259277344,
+      "eval_loss": 0.05630422756075859,
+      "eval_rewards/accuracies": 0.9780886769294739,
+      "eval_rewards/chosen": -4.148531913757324,
+      "eval_rewards/margins": 11.36646842956543,
+      "eval_rewards/rejected": -15.515000343322754,
+      "eval_runtime": 133.2954,
+      "eval_samples_per_second": 44.338,
+      "eval_steps_per_second": 0.353,
+      "step": 200
     }
   ],
   "logging_steps": 5,