Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step950/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b61afc00633904e3e3efc7f29b72ec2d78dc829c43cf33d9f393de8d8cd42933
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:23f8468ab813d9e56e09698a93d437e78292ec411139e02978d9188bf4ffeee2
 size 1172343536

last-checkpoint/global_step950/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:074c1019315338c1c28b95096f68f46ba89def70674ab802285b2ad7b3fd695f
+size 883824229

last-checkpoint/global_step950/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96a3914b7916620f2327dbf550b4711765883b089e4c3359f0cf888240cf8080
+size 883824293

last-checkpoint/global_step950/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2aa5e14ddd576b3e26e897a69ce83b88562a6ca6f07667a98e56156a3b41b216
+size 883824293

last-checkpoint/global_step950/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c29f1b021840427dee6101ed0df948a7874a6c33c58cf31b8ec77acf0d961d9
+size 883824293

last-checkpoint/global_step950/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffc770aca18336958df2c58333bdac3d17ba5d67b324145845d23a9308a9dece
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step850~~


1	+ global_step950

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5093d9ced672268085b82fa39d1b89e5ac93a3a18a59a989b271295a07b9ccd1
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:42eece58e18138a3a40c2dc0948b5d96ca66cf577be495da175f4ed850444734
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bd8ca6e1eafc6a6c0f5863cd14662300324e69b710f6a1ecdc76adb93466629
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffd2f983e3e59960b5499c204e5f199014d569d225ac6328f5d4440d8c45e91c
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:079788f0c27c34946197f1a3ccfb099be63e60d3b81ca2e1708fdc43e5084bae
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbada6f688d26a6b9e6d8ef763210fc919fb6174ae03d1a06905d2162e331668
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a726b049d7cadd85deeef60294818bb0e9a8a2fd746e6f39716d53fd11134cc
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e40ebbadcd0516dfdcd2651365d5f23ec3f4e784025806c254a6c26ad7973d1e
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7f3865998cb3ddceebc1b411b59f14db2353202b3069bac896fc88dd7c6204e
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:7476d66814f09ce30aba31af8b755717e5538df88414f14d253e0105535c9366
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.017594844102859497,
   "best_model_checkpoint": null,
-  "epoch": 0.738327904451683,
   "eval_steps": 50,
-  "global_step": 850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2830,6 +2830,338 @@
       "eval_samples_per_second": 45.191,
       "eval_steps_per_second": 2.832,
       "step": 850
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.01580377295613289,
   "best_model_checkpoint": null,
+  "epoch": 0.8251900108577633,
   "eval_steps": 50,
+  "global_step": 950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.191,
       "eval_steps_per_second": 2.832,
       "step": 850
+    },
+    {
+      "epoch": 0.742671009771987,
+      "grad_norm": 0.7523190975189209,
+      "learning_rate": 2.5620605753790758e-05,
+      "logits/chosen": -0.8077148199081421,
+      "logits/rejected": -1.3994140625,
+      "logps/chosen": -94.6875,
+      "logps/rejected": -203.5500030517578,
+      "loss": 0.0154,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -1.6073729991912842,
+      "rewards/margins": 15.074999809265137,
+      "rewards/rejected": -16.682811737060547,
+      "step": 855
+    },
+    {
+      "epoch": 0.747014115092291,
+      "grad_norm": 1.0249874591827393,
+      "learning_rate": 2.5615703239231745e-05,
+      "logits/chosen": -0.8426758050918579,
+      "logits/rejected": -1.3904297351837158,
+      "logps/chosen": -95.9625015258789,
+      "logps/rejected": -199.25,
+      "loss": 0.025,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.5345001220703125,
+      "rewards/margins": 14.353124618530273,
+      "rewards/rejected": -15.889062881469727,
+      "step": 860
+    },
+    {
+      "epoch": 0.751357220412595,
+      "grad_norm": 1.3187707662582397,
+      "learning_rate": 2.5610768953106058e-05,
+      "logits/chosen": -0.874804675579071,
+      "logits/rejected": -1.408593773841858,
+      "logps/chosen": -95.73750305175781,
+      "logps/rejected": -192.6750030517578,
+      "loss": 0.0358,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -2.129589796066284,
+      "rewards/margins": 13.300000190734863,
+      "rewards/rejected": -15.423437118530273,
+      "step": 865
+    },
+    {
+      "epoch": 0.755700325732899,
+      "grad_norm": 0.5272805094718933,
+      "learning_rate": 2.5605802907835754e-05,
+      "logits/chosen": -0.848339855670929,
+      "logits/rejected": -1.419335961341858,
+      "logps/chosen": -98.0625,
+      "logps/rejected": -200.25,
+      "loss": 0.0135,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -1.82470703125,
+      "rewards/margins": 13.948437690734863,
+      "rewards/rejected": -15.765625,
+      "step": 870
+    },
+    {
+      "epoch": 0.760043431053203,
+      "grad_norm": 0.806443452835083,
+      "learning_rate": 2.560080511592285e-05,
+      "logits/chosen": -0.828808605670929,
+      "logits/rejected": -1.393164038658142,
+      "logps/chosen": -96.48750305175781,
+      "logps/rejected": -203.27499389648438,
+      "loss": 0.0138,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -1.562280297279358,
+      "rewards/margins": 14.803125381469727,
+      "rewards/rejected": -16.364063262939453,
+      "step": 875
+    },
+    {
+      "epoch": 0.7643865363735071,
+      "grad_norm": 0.07712932676076889,
+      "learning_rate": 2.5595775589949274e-05,
+      "logits/chosen": -0.822070300579071,
+      "logits/rejected": -1.4191405773162842,
+      "logps/chosen": -95.375,
+      "logps/rejected": -206.02499389648438,
+      "loss": 0.0165,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -1.627539038658142,
+      "rewards/margins": 15.4140625,
+      "rewards/rejected": -17.0390625,
+      "step": 880
+    },
+    {
+      "epoch": 0.7687296416938111,
+      "grad_norm": 0.326339453458786,
+      "learning_rate": 2.559071434257686e-05,
+      "logits/chosen": -0.756152331829071,
+      "logits/rejected": -1.3937499523162842,
+      "logps/chosen": -95.0999984741211,
+      "logps/rejected": -212.64999389648438,
+      "loss": 0.0262,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -1.3534424304962158,
+      "rewards/margins": 16.889062881469727,
+      "rewards/rejected": -18.240625381469727,
+      "step": 885
+    },
+    {
+      "epoch": 0.7730727470141151,
+      "grad_norm": 1.237589955329895,
+      "learning_rate": 2.5585621386547282e-05,
+      "logits/chosen": -0.6800292730331421,
+      "logits/rejected": -1.363671898841858,
+      "logps/chosen": -89.125,
+      "logps/rejected": -205.1750030517578,
+      "loss": 0.0274,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -1.2133667469024658,
+      "rewards/margins": 16.431249618530273,
+      "rewards/rejected": -17.649999618530273,
+      "step": 890
+    },
+    {
+      "epoch": 0.7774158523344191,
+      "grad_norm": 1.1582876443862915,
+      "learning_rate": 2.558049673468206e-05,
+      "logits/chosen": -0.6570800542831421,
+      "logits/rejected": -1.3058593273162842,
+      "logps/chosen": -93.26249694824219,
+      "logps/rejected": -204.3249969482422,
+      "loss": 0.0161,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -1.2059326171875,
+      "rewards/margins": 15.709375381469727,
+      "rewards/rejected": -16.909374237060547,
+      "step": 895
+    },
+    {
+      "epoch": 0.7817589576547231,
+      "grad_norm": 0.3801599442958832,
+      "learning_rate": 2.5575340399882494e-05,
+      "logits/chosen": -0.560009777545929,
+      "logits/rejected": -1.224218726158142,
+      "logps/chosen": -92.42500305175781,
+      "logps/rejected": -199.89999389648438,
+      "loss": 0.0231,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -1.2174804210662842,
+      "rewards/margins": 14.934374809265137,
+      "rewards/rejected": -16.143749237060547,
+      "step": 900
+    },
+    {
+      "epoch": 0.7817589576547231,
+      "eval_logits/chosen": -0.5647845268249512,
+      "eval_logits/rejected": -1.2184679508209229,
+      "eval_logps/chosen": -93.11913299560547,
+      "eval_logps/rejected": -202.69674682617188,
+      "eval_loss": 0.018629321828484535,
+      "eval_rewards/accuracies": 0.9939079284667969,
+      "eval_rewards/chosen": -1.177590250968933,
+      "eval_rewards/margins": 15.361913681030273,
+      "eval_rewards/rejected": -16.537229537963867,
+      "eval_runtime": 97.9322,
+      "eval_samples_per_second": 45.133,
+      "eval_steps_per_second": 2.828,
+      "step": 900
+    },
+    {
+      "epoch": 0.7861020629750272,
+      "grad_norm": 0.607754647731781,
+      "learning_rate": 2.5570152395129652e-05,
+      "logits/chosen": -0.589062511920929,
+      "logits/rejected": -1.2609374523162842,
+      "logps/chosen": -92.4625015258789,
+      "logps/rejected": -203.77499389648438,
+      "loss": 0.018,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -1.1729949712753296,
+      "rewards/margins": 15.557812690734863,
+      "rewards/rejected": -16.740625381469727,
+      "step": 905
+    },
+    {
+      "epoch": 0.7904451682953312,
+      "grad_norm": 1.4535472393035889,
+      "learning_rate": 2.5564932733484332e-05,
+      "logits/chosen": -0.6014648675918579,
+      "logits/rejected": -1.2205078601837158,
+      "logps/chosen": -95.30000305175781,
+      "logps/rejected": -210.6999969482422,
+      "loss": 0.0203,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -1.616796851158142,
+      "rewards/margins": 16.715625762939453,
+      "rewards/rejected": -18.323436737060547,
+      "step": 910
+    },
+    {
+      "epoch": 0.7947882736156352,
+      "grad_norm": 0.45966601371765137,
+      "learning_rate": 2.5559681428087023e-05,
+      "logits/chosen": -0.594042956829071,
+      "logits/rejected": -1.225000023841858,
+      "logps/chosen": -99.94999694824219,
+      "logps/rejected": -225.35000610351562,
+      "loss": 0.0242,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.395181179046631,
+      "rewards/margins": 17.942188262939453,
+      "rewards/rejected": -20.340625762939453,
+      "step": 915
+    },
+    {
+      "epoch": 0.7991313789359392,
+      "grad_norm": 0.7086648344993591,
+      "learning_rate": 2.5554398492157877e-05,
+      "logits/chosen": -0.6189941167831421,
+      "logits/rejected": -1.236718773841858,
+      "logps/chosen": -100.9375,
+      "logps/rejected": -227.77499389648438,
+      "loss": 0.0217,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -2.63134765625,
+      "rewards/margins": 18.178125381469727,
+      "rewards/rejected": -20.803125381469727,
+      "step": 920
+    },
+    {
+      "epoch": 0.8034744842562432,
+      "grad_norm": 0.34707164764404297,
+      "learning_rate": 2.554908393899669e-05,
+      "logits/chosen": -0.608203113079071,
+      "logits/rejected": -1.2136719226837158,
+      "logps/chosen": -98.875,
+      "logps/rejected": -225.77499389648438,
+      "loss": 0.0187,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.9156250953674316,
+      "rewards/margins": 17.978124618530273,
+      "rewards/rejected": -20.90625,
+      "step": 925
+    },
+    {
+      "epoch": 0.8078175895765473,
+      "grad_norm": 0.7366545796394348,
+      "learning_rate": 2.554373778198283e-05,
+      "logits/chosen": -0.6025390625,
+      "logits/rejected": -1.2021484375,
+      "logps/chosen": -104.9000015258789,
+      "logps/rejected": -230.0500030517578,
+      "loss": 0.0093,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -3.468945264816284,
+      "rewards/margins": 18.232812881469727,
+      "rewards/rejected": -21.696874618530273,
+      "step": 930
+    },
+    {
+      "epoch": 0.8121606948968513,
+      "grad_norm": 0.4262625277042389,
+      "learning_rate": 2.5538360034575248e-05,
+      "logits/chosen": -0.605664074420929,
+      "logits/rejected": -1.201757788658142,
+      "logps/chosen": -104.9000015258789,
+      "logps/rejected": -235.64999389648438,
+      "loss": 0.0145,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -3.487499952316284,
+      "rewards/margins": 18.454687118530273,
+      "rewards/rejected": -21.943750381469727,
+      "step": 935
+    },
+    {
+      "epoch": 0.8165038002171553,
+      "grad_norm": 1.2380222082138062,
+      "learning_rate": 2.553295071031242e-05,
+      "logits/chosen": -0.6294921636581421,
+      "logits/rejected": -1.1980469226837158,
+      "logps/chosen": -109.5875015258789,
+      "logps/rejected": -232.1750030517578,
+      "loss": 0.0349,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -4.358202934265137,
+      "rewards/margins": 17.704687118530273,
+      "rewards/rejected": -22.0625,
+      "step": 940
+    },
+    {
+      "epoch": 0.8208469055374593,
+      "grad_norm": 0.9695049524307251,
+      "learning_rate": 2.5527509822812305e-05,
+      "logits/chosen": -0.64990234375,
+      "logits/rejected": -1.2216796875,
+      "logps/chosen": -108.0,
+      "logps/rejected": -231.375,
+      "loss": 0.0365,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -4.158984184265137,
+      "rewards/margins": 17.4921875,
+      "rewards/rejected": -21.643749237060547,
+      "step": 945
+    },
+    {
+      "epoch": 0.8251900108577633,
+      "grad_norm": 1.411065697669983,
+      "learning_rate": 2.5522037385772335e-05,
+      "logits/chosen": -0.7132812738418579,
+      "logits/rejected": -1.2423827648162842,
+      "logps/chosen": -107.6875,
+      "logps/rejected": -224.89999389648438,
+      "loss": 0.0148,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -3.7392578125,
+      "rewards/margins": 17.2265625,
+      "rewards/rejected": -20.962499618530273,
+      "step": 950
+    },
+    {
+      "epoch": 0.8251900108577633,
+      "eval_logits/chosen": -0.7307437658309937,
+      "eval_logits/rejected": -1.2729016542434692,
+      "eval_logps/chosen": -106.3050537109375,
+      "eval_logps/rejected": -224.3501739501953,
+      "eval_loss": 0.01580377295613289,
+      "eval_rewards/accuracies": 0.9932310581207275,
+      "eval_rewards/chosen": -3.5991370677948,
+      "eval_rewards/margins": 16.913583755493164,
+      "eval_rewards/rejected": -20.513086318969727,
+      "eval_runtime": 97.5837,
+      "eval_samples_per_second": 45.294,
+      "eval_steps_per_second": 2.839,
+      "step": 950
     }
   ],
   "logging_steps": 5,