Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step350/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step350/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step350/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step350/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step350/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af02c1ae6226dcd7868f657f4c2e9b234b3ae7e678ff50611b3ba00a96877360
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:72c4bc97664d0aa7a098b0c228a22ae32034b0dbf4ab4da13857ed465b5a65d4
 size 1172343536

last-checkpoint/global_step350/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37fc7a2e36c47456cdb57ad2157f0526df8cde031240d041adb3010b39a804f1
+size 883824229

last-checkpoint/global_step350/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86c9ff85c1b1c7169e42d8df4c4e10f2a3f7d5418ec829e94c3119f66f6815f7
+size 883824293

last-checkpoint/global_step350/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b11063637dd7cf3b648c62228fa956b16f97369d414fb88bd40a11359e11e8b
+size 883824293

last-checkpoint/global_step350/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8b8b6efa843601f79dcaf36a924657370373e44e9326714e06e422f7d193d97
+size 883824293

last-checkpoint/global_step350/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faf64cec01f85857d3e5cd780821bab6f037b6129c2a7b4035770b88675fe4f2
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step300~~


1	+ global_step350

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6684d046afb526c2e665e56c5dea82ebbd5f4bafebc51ba7bbd0abe0af887457
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c372628cf0f11a7814089f880131f006d1271095beb5e7152f3c14aa8985e326
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80dc672c36be6d6e761464a269748f88cc1a2b275525f62e4c41e0a2b8e14c66
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8627b9687b17d3eb42763f7499513d01033a545f5fdc3224442fa88df7b07c1
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b2bed19a0bf05b4a5a72a170ec35982f5322d3d8cddeea244b9caffd018c4f9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2861b0db544103a2392f7009e235760e91d4f2dcf2605bc9fda62bad0578110
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8118881a2505438583b140279acb7bbe63652187d96439b98542be3623d2f6d3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:5661cf15d465afc34868de007aed00c0a576292f6e776fe25a04f040a9501399
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b512ac5de3057194dcd5b6fda8c85adef1b4c088a663414c6401d151e8a4a926
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:a14f05b7034e739d561e3e8c467aa7c3cfde2b5a09c502a2513b18be6676f89e
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.05415169149637222,
   "best_model_checkpoint": null,
-  "epoch": 0.26058631921824105,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1004,6 +1004,172 @@
       "eval_samples_per_second": 45.212,
       "eval_steps_per_second": 2.833,
       "step": 300
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.04868408665060997,
   "best_model_checkpoint": null,
+  "epoch": 0.30401737242128124,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.212,
       "eval_steps_per_second": 2.833,
       "step": 300
+    },
+    {
+      "epoch": 0.26492942453854507,
+      "grad_norm": 1.8991755247116089,
+      "learning_rate": 2.5963604556388822e-05,
+      "logits/chosen": -0.21623535454273224,
+      "logits/rejected": -0.652539074420929,
+      "logps/chosen": -91.5,
+      "logps/rejected": -175.3000030517578,
+      "loss": 0.0584,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -0.941723644733429,
+      "rewards/margins": 11.140625,
+      "rewards/rejected": -12.076562881469727,
+      "step": 305
+    },
+    {
+      "epoch": 0.2692725298588491,
+      "grad_norm": 0.6933239698410034,
+      "learning_rate": 2.5962254354896943e-05,
+      "logits/chosen": -0.21835938096046448,
+      "logits/rejected": -0.629345715045929,
+      "logps/chosen": -96.7750015258789,
+      "logps/rejected": -179.75,
+      "loss": 0.0424,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.7537109851837158,
+      "rewards/margins": 10.282031059265137,
+      "rewards/rejected": -12.037500381469727,
+      "step": 310
+    },
+    {
+      "epoch": 0.2736156351791531,
+      "grad_norm": 1.1337815523147583,
+      "learning_rate": 2.5960871509396373e-05,
+      "logits/chosen": -0.22700805962085724,
+      "logits/rejected": -0.621630847454071,
+      "logps/chosen": -98.25,
+      "logps/rejected": -182.9250030517578,
+      "loss": 0.0599,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -2.5380859375,
+      "rewards/margins": 10.541406631469727,
+      "rewards/rejected": -13.079687118530273,
+      "step": 315
+    },
+    {
+      "epoch": 0.2779587404994571,
+      "grad_norm": 1.0313189029693604,
+      "learning_rate": 2.595945602336842e-05,
+      "logits/chosen": -0.2883544862270355,
+      "logits/rejected": -0.70068359375,
+      "logps/chosen": -100.48750305175781,
+      "logps/rejected": -190.14999389648438,
+      "loss": 0.0483,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -2.769335985183716,
+      "rewards/margins": 12.239062309265137,
+      "rewards/rejected": -15.001562118530273,
+      "step": 320
+    },
+    {
+      "epoch": 0.28230184581976114,
+      "grad_norm": 2.236783027648926,
+      "learning_rate": 2.5958007900376565e-05,
+      "logits/chosen": -0.3595947325229645,
+      "logits/rejected": -0.758496105670929,
+      "logps/chosen": -97.19999694824219,
+      "logps/rejected": -192.10000610351562,
+      "loss": 0.0814,
+      "rewards/accuracies": 0.971875011920929,
+      "rewards/chosen": -2.0233397483825684,
+      "rewards/margins": 12.854687690734863,
+      "rewards/rejected": -14.878125190734863,
+      "step": 325
+    },
+    {
+      "epoch": 0.28664495114006516,
+      "grad_norm": 0.2666296660900116,
+      "learning_rate": 2.5956527144066455e-05,
+      "logits/chosen": -0.3157714903354645,
+      "logits/rejected": -0.805468738079071,
+      "logps/chosen": -91.5625,
+      "logps/rejected": -182.4499969482422,
+      "loss": 0.0333,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -0.836718738079071,
+      "rewards/margins": 11.439844131469727,
+      "rewards/rejected": -12.278124809265137,
+      "step": 330
+    },
+    {
+      "epoch": 0.2909880564603692,
+      "grad_norm": 1.1598833799362183,
+      "learning_rate": 2.5955013758165896e-05,
+      "logits/chosen": -0.3671875,
+      "logits/rejected": -0.854785144329071,
+      "logps/chosen": -92.11250305175781,
+      "logps/rejected": -181.0500030517578,
+      "loss": 0.0383,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1418945789337158,
+      "rewards/margins": 11.553125381469727,
+      "rewards/rejected": -12.699999809265137,
+      "step": 335
+    },
+    {
+      "epoch": 0.2953311617806732,
+      "grad_norm": 2.1906487941741943,
+      "learning_rate": 2.595346774648484e-05,
+      "logits/chosen": -0.49267578125,
+      "logits/rejected": -0.973925769329071,
+      "logps/chosen": -97.875,
+      "logps/rejected": -200.5500030517578,
+      "loss": 0.0494,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.0439453125,
+      "rewards/margins": 13.603124618530273,
+      "rewards/rejected": -15.6484375,
+      "step": 340
+    },
+    {
+      "epoch": 0.2996742671009772,
+      "grad_norm": 2.272686004638672,
+      "learning_rate": 2.5951889112915355e-05,
+      "logits/chosen": -0.581787109375,
+      "logits/rejected": -1.022558569908142,
+      "logps/chosen": -103.26249694824219,
+      "logps/rejected": -214.3000030517578,
+      "loss": 0.0348,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -2.8232421875,
+      "rewards/margins": 15.089062690734863,
+      "rewards/rejected": -17.920312881469727,
+      "step": 345
+    },
+    {
+      "epoch": 0.30401737242128124,
+      "grad_norm": 2.300966739654541,
+      "learning_rate": 2.595027786143166e-05,
+      "logits/chosen": -0.621533215045929,
+      "logits/rejected": -1.0398437976837158,
+      "logps/chosen": -103.1500015258789,
+      "logps/rejected": -214.9250030517578,
+      "loss": 0.0429,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -3.0667967796325684,
+      "rewards/margins": 15.360937118530273,
+      "rewards/rejected": -18.432811737060547,
+      "step": 350
+    },
+    {
+      "epoch": 0.30401737242128124,
+      "eval_logits/chosen": -0.6215943694114685,
+      "eval_logits/rejected": -1.031334638595581,
+      "eval_logps/chosen": -104.52346801757812,
+      "eval_logps/rejected": -207.2238311767578,
+      "eval_loss": 0.04868408665060997,
+      "eval_rewards/accuracies": 0.9814981818199158,
+      "eval_rewards/chosen": -3.2726759910583496,
+      "eval_rewards/margins": 14.101533889770508,
+      "eval_rewards/rejected": -17.368907928466797,
+      "eval_runtime": 97.7856,
+      "eval_samples_per_second": 45.201,
+      "eval_steps_per_second": 2.833,
+      "step": 350
     }
   ],
   "logging_steps": 5,