Training in progress, epoch 11, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step805/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step805/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step805/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step805/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step805/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccf2833204f1ebfbdd66d162d15ff1c32727735894636aaced086424b91aabe9
 size 892897944

 version https://git-lfs.github.com/spec/v1
+oid sha256:e437eaee19bbd15e83d4a939cae73699cf7c04de79bc02cf69d3835fe0906e8f
 size 892897944

last-checkpoint/global_step805/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fe24ef50b1c15624fd2003a91f04fa978ea6c7fc7dae2feffb8609e4e5351bd
+size 673148517

last-checkpoint/global_step805/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b3413c88245fa91d0398f4c5c91539ff255d7617af0bfd0b1ea4941e609b04f
+size 673148581

last-checkpoint/global_step805/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b2c9af2053cea06a16992278b7c3a81170506faeafec1ee9c0d2f18e0e694eb
+size 673148581

last-checkpoint/global_step805/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aac879faa1bf1eb50521a4fd4ad39dd6de95d6fde6bfcb6e12f4a1db23c80d78
+size 673148581

last-checkpoint/global_step805/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dc19002c5db0266879cb308fc9e0413a78a9370073a901953e11c9950ad380c
+size 893076569

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step705~~


1	+ global_step805

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1937a443d7368c8ec9254650849425295f524b6811196164c9f8145ae9528880
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ff16acfda6bbc5cf50b99aa265031ad0b4a77a4ea996fe62e798c2b245c7d95
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0a996684adc127ea8c51ebb0d616f5ff3e480192cd01de6d293712583e60f2b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a794a90df9c5b0631ebe2e7987dab57982f6a583f0010d55836d1074ee1a40d
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18dcda78addf690b92cd7056f07582eb468846f2e21bc29981e4ee2c6c66d84b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd6668393a5bc1b0de5d288b1691ef425f75f4c9702525195c76ff72f801ebb1
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5b1adb37a2fab20cad86ca7dee4e55987e43f200ac69e3c2cd774e08f39674a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:f24d02dcb6989a54f9b8b9339108aafa5df8c99759987bdb33d7a9ef54169400
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d3f6472b6143fc6353ad6362140eebb6ce12ab1f1f8c14125bcce21cd059346
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:311eb9812176f51b258a368822f71b70f80b61465aa3d1733f9b098718c1a5ae
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.03448659926652908,
   "best_model_checkpoint": null,
-  "epoch": 10.14336917562724,
   "eval_steps": 50,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2332,6 +2332,338 @@
       "eval_samples_per_second": 25.568,
       "eval_steps_per_second": 0.862,
       "step": 700
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.03328302875161171,
   "best_model_checkpoint": null,
+  "epoch": 11.587813620071685,
   "eval_steps": 50,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.568,
       "eval_steps_per_second": 0.862,
       "step": 700
+    },
+    {
+      "epoch": 10.21505376344086,
+      "grad_norm": 3.6100528240203857,
+      "learning_rate": 6.638172079355048e-05,
+      "logits/chosen": -1.1095702648162842,
+      "logits/rejected": -1.202734351158142,
+      "logps/chosen": -385.0,
+      "logps/rejected": -644.2999877929688,
+      "loss": 0.029,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -1.306646704673767,
+      "rewards/margins": 14.65625,
+      "rewards/rejected": -15.978124618530273,
+      "step": 705
+    },
+    {
+      "epoch": 10.28673835125448,
+      "grad_norm": 0.639515221118927,
+      "learning_rate": 6.637155458698307e-05,
+      "logits/chosen": -1.1066405773162842,
+      "logits/rejected": -1.2199218273162842,
+      "logps/chosen": -375.1000061035156,
+      "logps/rejected": -635.5999755859375,
+      "loss": 0.0257,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -1.794921875,
+      "rewards/margins": 14.431249618530273,
+      "rewards/rejected": -16.215625762939453,
+      "step": 710
+    },
+    {
+      "epoch": 10.3584229390681,
+      "grad_norm": 1.197538137435913,
+      "learning_rate": 6.63613056201972e-05,
+      "logits/chosen": -1.065039038658142,
+      "logits/rejected": -1.20703125,
+      "logps/chosen": -403.79998779296875,
+      "logps/rejected": -669.5999755859375,
+      "loss": 0.0463,
+      "rewards/accuracies": 0.9671875238418579,
+      "rewards/chosen": -1.352148413658142,
+      "rewards/margins": 16.912500381469727,
+      "rewards/rejected": -18.253124237060547,
+      "step": 715
+    },
+    {
+      "epoch": 10.43010752688172,
+      "grad_norm": 2.171043872833252,
+      "learning_rate": 6.635097391899463e-05,
+      "logits/chosen": -1.103515625,
+      "logits/rejected": -1.211328148841858,
+      "logps/chosen": -386.6000061035156,
+      "logps/rejected": -628.5,
+      "loss": 0.0346,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -1.0,
+      "rewards/margins": 16.143749237060547,
+      "rewards/rejected": -17.115625381469727,
+      "step": 720
+    },
+    {
+      "epoch": 10.501792114695341,
+      "grad_norm": 2.131438732147217,
+      "learning_rate": 6.63405595093854e-05,
+      "logits/chosen": -1.1662108898162842,
+      "logits/rejected": -1.2726562023162842,
+      "logps/chosen": -396.3999938964844,
+      "logps/rejected": -647.2000122070312,
+      "loss": 0.0233,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.1624664068222046,
+      "rewards/margins": 16.649999618530273,
+      "rewards/rejected": -17.818750381469727,
+      "step": 725
+    },
+    {
+      "epoch": 10.57347670250896,
+      "grad_norm": 1.5541068315505981,
+      "learning_rate": 6.633006241758778e-05,
+      "logits/chosen": -1.228124976158142,
+      "logits/rejected": -1.3742187023162842,
+      "logps/chosen": -400.70001220703125,
+      "logps/rejected": -670.2999877929688,
+      "loss": 0.0487,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -2.663867235183716,
+      "rewards/margins": 18.240625381469727,
+      "rewards/rejected": -20.918750762939453,
+      "step": 730
+    },
+    {
+      "epoch": 10.64516129032258,
+      "grad_norm": 4.768660545349121,
+      "learning_rate": 6.631948267002819e-05,
+      "logits/chosen": -1.2703125476837158,
+      "logits/rejected": -1.368749976158142,
+      "logps/chosen": -423.8999938964844,
+      "logps/rejected": -721.2000122070312,
+      "loss": 0.0192,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -3.223828077316284,
+      "rewards/margins": 20.174999237060547,
+      "rewards/rejected": -23.399999618530273,
+      "step": 735
+    },
+    {
+      "epoch": 10.716845878136201,
+      "grad_norm": 1.4146541357040405,
+      "learning_rate": 6.630882029334112e-05,
+      "logits/chosen": -1.2531249523162842,
+      "logits/rejected": -1.345312476158142,
+      "logps/chosen": -412.0,
+      "logps/rejected": -667.5,
+      "loss": 0.0345,
+      "rewards/accuracies": 0.973437488079071,
+      "rewards/chosen": -2.1131834983825684,
+      "rewards/margins": 17.715625762939453,
+      "rewards/rejected": -19.828125,
+      "step": 740
+    },
+    {
+      "epoch": 10.78853046594982,
+      "grad_norm": 10.958137512207031,
+      "learning_rate": 6.62980753143691e-05,
+      "logits/chosen": -1.258203148841858,
+      "logits/rejected": -1.382421851158142,
+      "logps/chosen": -396.1000061035156,
+      "logps/rejected": -648.0999755859375,
+      "loss": 0.5085,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.490673780441284,
+      "rewards/margins": 16.428125381469727,
+      "rewards/rejected": -18.918750762939453,
+      "step": 745
+    },
+    {
+      "epoch": 10.86021505376344,
+      "grad_norm": 0.7889600396156311,
+      "learning_rate": 6.62872477601626e-05,
+      "logits/chosen": -1.3039062023162842,
+      "logits/rejected": -1.4226562976837158,
+      "logps/chosen": -410.3999938964844,
+      "logps/rejected": -664.2000122070312,
+      "loss": 0.2331,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.001757860183716,
+      "rewards/margins": 18.571874618530273,
+      "rewards/rejected": -20.575000762939453,
+      "step": 750
+    },
+    {
+      "epoch": 10.86021505376344,
+      "eval_logits/chosen": -1.3402777910232544,
+      "eval_logits/rejected": -1.4592013359069824,
+      "eval_logps/chosen": -408.4444580078125,
+      "eval_logps/rejected": -681.3333129882812,
+      "eval_loss": 0.04453478381037712,
+      "eval_rewards/accuracies": 0.9725378751754761,
+      "eval_rewards/chosen": -2.062066078186035,
+      "eval_rewards/margins": 18.46527862548828,
+      "eval_rewards/rejected": -20.52083396911621,
+      "eval_runtime": 10.2105,
+      "eval_samples_per_second": 26.149,
+      "eval_steps_per_second": 0.881,
+      "step": 750
+    },
+    {
+      "epoch": 10.931899641577061,
+      "grad_norm": 1.6667836904525757,
+      "learning_rate": 6.627633765797999e-05,
+      "logits/chosen": -1.3240234851837158,
+      "logits/rejected": -1.429296851158142,
+      "logps/chosen": -408.3999938964844,
+      "logps/rejected": -681.4000244140625,
+      "loss": 0.1956,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -2.8973631858825684,
+      "rewards/margins": 18.996875762939453,
+      "rewards/rejected": -21.881250381469727,
+      "step": 755
+    },
+    {
+      "epoch": 11.014336917562725,
+      "grad_norm": 2.1559181213378906,
+      "learning_rate": 6.62653450352874e-05,
+      "logits/chosen": -1.3860085010528564,
+      "logits/rejected": -1.4886363744735718,
+      "logps/chosen": -414.18182373046875,
+      "logps/rejected": -683.6363525390625,
+      "loss": 0.0331,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -3.476029872894287,
+      "rewards/margins": 19.136363983154297,
+      "rewards/rejected": -22.625,
+      "step": 760
+    },
+    {
+      "epoch": 11.086021505376344,
+      "grad_norm": 0.5421841740608215,
+      "learning_rate": 6.625426991975878e-05,
+      "logits/chosen": -1.2683594226837158,
+      "logits/rejected": -1.3828125,
+      "logps/chosen": -449.20001220703125,
+      "logps/rejected": -716.2000122070312,
+      "loss": 0.0245,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -3.512500047683716,
+      "rewards/margins": 18.740625381469727,
+      "rewards/rejected": -22.262500762939453,
+      "step": 765
+    },
+    {
+      "epoch": 11.157706093189963,
+      "grad_norm": 0.014763603918254375,
+      "learning_rate": 6.624311233927571e-05,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.381250023841858,
+      "logps/chosen": -408.20001220703125,
+      "logps/rejected": -683.7999877929688,
+      "loss": 0.0215,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.837890625,
+      "rewards/margins": 17.071874618530273,
+      "rewards/rejected": -20.912500381469727,
+      "step": 770
+    },
+    {
+      "epoch": 11.229390681003585,
+      "grad_norm": 2.519441843032837,
+      "learning_rate": 6.623187232192738e-05,
+      "logits/chosen": -1.279687523841858,
+      "logits/rejected": -1.396875023841858,
+      "logps/chosen": -404.1000061035156,
+      "logps/rejected": -662.2999877929688,
+      "loss": 0.0389,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -4.133593559265137,
+      "rewards/margins": 17.243749618530273,
+      "rewards/rejected": -21.375,
+      "step": 775
+    },
+    {
+      "epoch": 11.301075268817204,
+      "grad_norm": 1.973528504371643,
+      "learning_rate": 6.622054989601051e-05,
+      "logits/chosen": -1.212890625,
+      "logits/rejected": -1.360742211341858,
+      "logps/chosen": -410.8999938964844,
+      "logps/rejected": -691.4000244140625,
+      "loss": 0.0222,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -4.862500190734863,
+      "rewards/margins": 16.665624618530273,
+      "rewards/rejected": -21.518749237060547,
+      "step": 780
+    },
+    {
+      "epoch": 11.372759856630825,
+      "grad_norm": 0.8458139896392822,
+      "learning_rate": 6.620914509002932e-05,
+      "logits/chosen": -1.215234398841858,
+      "logits/rejected": -1.349609375,
+      "logps/chosen": -403.29998779296875,
+      "logps/rejected": -650.2999877929688,
+      "loss": 0.0473,
+      "rewards/accuracies": 0.973437488079071,
+      "rewards/chosen": -3.1806640625,
+      "rewards/margins": 16.887500762939453,
+      "rewards/rejected": -20.071874618530273,
+      "step": 785
+    },
+    {
+      "epoch": 11.444444444444445,
+      "grad_norm": 0.09396322816610336,
+      "learning_rate": 6.619765793269539e-05,
+      "logits/chosen": -1.1103515625,
+      "logits/rejected": -1.233984351158142,
+      "logps/chosen": -384.79998779296875,
+      "logps/rejected": -670.5999755859375,
+      "loss": 0.0192,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.9014649391174316,
+      "rewards/margins": 16.671875,
+      "rewards/rejected": -19.559375762939453,
+      "step": 790
+    },
+    {
+      "epoch": 11.516129032258064,
+      "grad_norm": 0.5156263709068298,
+      "learning_rate": 6.618608845292762e-05,
+      "logits/chosen": -1.0205078125,
+      "logits/rejected": -1.146875023841858,
+      "logps/chosen": -389.8999938964844,
+      "logps/rejected": -652.2000122070312,
+      "loss": 0.0317,
+      "rewards/accuracies": 0.9828125238418579,
+      "rewards/chosen": -1.9188964366912842,
+      "rewards/margins": 16.628124237060547,
+      "rewards/rejected": -18.540624618530273,
+      "step": 795
+    },
+    {
+      "epoch": 11.587813620071685,
+      "grad_norm": 2.2448863983154297,
+      "learning_rate": 6.617443667985216e-05,
+      "logits/chosen": -1.002539038658142,
+      "logits/rejected": -1.141210913658142,
+      "logps/chosen": -406.0,
+      "logps/rejected": -656.4000244140625,
+      "loss": 0.0225,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.7773040533065796,
+      "rewards/margins": 16.728124618530273,
+      "rewards/rejected": -18.512500762939453,
+      "step": 800
+    },
+    {
+      "epoch": 11.587813620071685,
+      "eval_logits/chosen": -1.0394965410232544,
+      "eval_logits/rejected": -1.1527777910232544,
+      "eval_logps/chosen": -404.0,
+      "eval_logps/rejected": -672.888916015625,
+      "eval_loss": 0.03328302875161171,
+      "eval_rewards/accuracies": 0.9760100841522217,
+      "eval_rewards/chosen": -1.6126302480697632,
+      "eval_rewards/margins": 18.16666603088379,
+      "eval_rewards/rejected": -19.8125,
+      "eval_runtime": 10.2022,
+      "eval_samples_per_second": 26.171,
+      "eval_steps_per_second": 0.882,
+      "step": 800
     }
   ],
   "logging_steps": 5,