Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a9c3e8764ac0e745f6f2f52febb7d10692a33c3745620483b24136f9b8a908e
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:af02c1ae6226dcd7868f657f4c2e9b234b3ae7e678ff50611b3ba00a96877360
 size 1172343536

last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:008252ad8e8f8d3728d95ef55b348660439a385712f5bc85e635c2089beeee11
+size 883824229

last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14959eaec2a8e47c8364c3c6e509c80c74c0c87fb050a805dd080880fcff3d05
+size 883824293

last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ca0305461a58983fe7581392e08642bf13fd6665cb636d82b83d2f1f78a8967
+size 883824293

last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65f2bcee50f75d452501729ef67c8f9755d35eb918488116a66d05e1443f3078
+size 883824293

last-checkpoint/global_step300/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bcf3c7fcebef0d45844172e9a52dcde4391d14129b159de2e9a8c7a466a7118
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step250~~


1	+ global_step300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9892a41432d4e48929c5376b8225d5373bb9afe9f14665fbcb3934dc45cb330a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6684d046afb526c2e665e56c5dea82ebbd5f4bafebc51ba7bbd0abe0af887457
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6f3949e2b25ad05905da16bc2d58aeadc9a9f1db0b0e97a04ceb63467acff1d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:80dc672c36be6d6e761464a269748f88cc1a2b275525f62e4c41e0a2b8e14c66
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c3812c5e7f13c9d32f97d83cd625428061b1c9486e869caffd453d83ac07ceb
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2bed19a0bf05b4a5a72a170ec35982f5322d3d8cddeea244b9caffd018c4f9
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eda756b33768639c1e1932ae00c5d43269de5705c09162bc09acdf71d3533c0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8118881a2505438583b140279acb7bbe63652187d96439b98542be3623d2f6d3
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:610f32c595d4257f7e544a8d61dbdf0e85b19520c0d69daf98d6e00fbe896bb3
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:b512ac5de3057194dcd5b6fda8c85adef1b4c088a663414c6401d151e8a4a926
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.05831117928028107,
   "best_model_checkpoint": null,
-  "epoch": 0.21715526601520088,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -838,6 +838,172 @@
       "eval_samples_per_second": 45.209,
       "eval_steps_per_second": 2.833,
       "step": 250
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.05415169149637222,
   "best_model_checkpoint": null,
+  "epoch": 0.26058631921824105,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.209,
       "eval_steps_per_second": 2.833,
       "step": 250
+    },
+    {
+      "epoch": 0.22149837133550487,
+      "grad_norm": 1.8157916069030762,
+      "learning_rate": 2.5975310443710866e-05,
+      "logits/chosen": -0.505810558795929,
+      "logits/rejected": -0.7989257574081421,
+      "logps/chosen": -106.13749694824219,
+      "logps/rejected": -208.39999389648438,
+      "loss": 0.0339,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.729296922683716,
+      "rewards/margins": 13.74609375,
+      "rewards/rejected": -17.479686737060547,
+      "step": 255
+    },
+    {
+      "epoch": 0.2258414766558089,
+      "grad_norm": 0.3422696888446808,
+      "learning_rate": 2.5974286855694165e-05,
+      "logits/chosen": -0.5638183355331421,
+      "logits/rejected": -0.8416992425918579,
+      "logps/chosen": -113.76249694824219,
+      "logps/rejected": -239.10000610351562,
+      "loss": 0.0553,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -5.051562309265137,
+      "rewards/margins": 17.637500762939453,
+      "rewards/rejected": -22.690624237060547,
+      "step": 260
+    },
+    {
+      "epoch": 0.2301845819761129,
+      "grad_norm": 1.5473806858062744,
+      "learning_rate": 2.5973230593376964e-05,
+      "logits/chosen": -0.537841796875,
+      "logits/rejected": -0.8116210699081421,
+      "logps/chosen": -114.7249984741211,
+      "logps/rejected": -226.4250030517578,
+      "loss": 0.0797,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -5.273046970367432,
+      "rewards/margins": 15.784375190734863,
+      "rewards/rejected": -21.0625,
+      "step": 265
+    },
+    {
+      "epoch": 0.23452768729641693,
+      "grad_norm": 2.0275261402130127,
+      "learning_rate": 2.59721416594184e-05,
+      "logits/chosen": -0.4112548828125,
+      "logits/rejected": -0.738085925579071,
+      "logps/chosen": -106.3125,
+      "logps/rejected": -202.27499389648438,
+      "loss": 0.0626,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.431445360183716,
+      "rewards/margins": 12.971875190734863,
+      "rewards/rejected": -16.407812118530273,
+      "step": 270
+    },
+    {
+      "epoch": 0.23887079261672095,
+      "grad_norm": 0.9977736473083496,
+      "learning_rate": 2.597102005655986e-05,
+      "logits/chosen": -0.3223876953125,
+      "logits/rejected": -0.6863769292831421,
+      "logps/chosen": -95.92500305175781,
+      "logps/rejected": -185.75,
+      "loss": 0.0374,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -1.869238257408142,
+      "rewards/margins": 11.40625,
+      "rewards/rejected": -13.279687881469727,
+      "step": 275
+    },
+    {
+      "epoch": 0.24321389793702497,
+      "grad_norm": 2.147094488143921,
+      "learning_rate": 2.5969865787624978e-05,
+      "logits/chosen": -0.31782227754592896,
+      "logits/rejected": -0.6861327886581421,
+      "logps/chosen": -97.9749984741211,
+      "logps/rejected": -185.3249969482422,
+      "loss": 0.0597,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -1.980859398841858,
+      "rewards/margins": 11.2421875,
+      "rewards/rejected": -13.220312118530273,
+      "step": 280
+    },
+    {
+      "epoch": 0.247557003257329,
+      "grad_norm": 2.774425506591797,
+      "learning_rate": 2.5968678855519625e-05,
+      "logits/chosen": -0.35649412870407104,
+      "logits/rejected": -0.7391601800918579,
+      "logps/chosen": -101.86250305175781,
+      "logps/rejected": -194.35000610351562,
+      "loss": 0.0581,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.56787109375,
+      "rewards/margins": 12.3359375,
+      "rewards/rejected": -14.899999618530273,
+      "step": 285
+    },
+    {
+      "epoch": 0.251900108577633,
+      "grad_norm": 1.0022233724594116,
+      "learning_rate": 2.596745926323191e-05,
+      "logits/chosen": -0.4034423828125,
+      "logits/rejected": -0.797167956829071,
+      "logps/chosen": -99.26249694824219,
+      "logps/rejected": -198.4499969482422,
+      "loss": 0.0319,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.622265577316284,
+      "rewards/margins": 13.314062118530273,
+      "rewards/rejected": -15.932812690734863,
+      "step": 290
+    },
+    {
+      "epoch": 0.256243213897937,
+      "grad_norm": 1.1058632135391235,
+      "learning_rate": 2.5966207013832144e-05,
+      "logits/chosen": -0.4100097715854645,
+      "logits/rejected": -0.80322265625,
+      "logps/chosen": -97.1624984741211,
+      "logps/rejected": -202.4499969482422,
+      "loss": 0.0285,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.9398925304412842,
+      "rewards/margins": 14.432812690734863,
+      "rewards/rejected": -16.362499237060547,
+      "step": 295
+    },
+    {
+      "epoch": 0.26058631921824105,
+      "grad_norm": 2.3041181564331055,
+      "learning_rate": 2.5964922110472866e-05,
+      "logits/chosen": -0.33453369140625,
+      "logits/rejected": -0.7574707269668579,
+      "logps/chosen": -94.17500305175781,
+      "logps/rejected": -194.14999389648438,
+      "loss": 0.0809,
+      "rewards/accuracies": 0.9703124761581421,
+      "rewards/chosen": -1.3451659679412842,
+      "rewards/margins": 13.042187690734863,
+      "rewards/rejected": -14.385937690734863,
+      "step": 300
+    },
+    {
+      "epoch": 0.26058631921824105,
+      "eval_logits/chosen": -0.24731092154979706,
+      "eval_logits/rejected": -0.6738986372947693,
+      "eval_logps/chosen": -91.36100769042969,
+      "eval_logps/rejected": -179.44764709472656,
+      "eval_loss": 0.05415169149637222,
+      "eval_rewards/accuracies": 0.9796931147575378,
+      "eval_rewards/chosen": -0.8572187423706055,
+      "eval_rewards/margins": 11.417305946350098,
+      "eval_rewards/rejected": -12.27707576751709,
+      "eval_runtime": 97.762,
+      "eval_samples_per_second": 45.212,
+      "eval_steps_per_second": 2.833,
+      "step": 300
     }
   ],
   "logging_steps": 5,