Daewon0808 commited on Jan 25, 2025

Commit

5b724a8

verified ·

1 Parent(s): 6272ee1

Training in progress, step 2527, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2527/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2527/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +278 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fff5c8febf642eb47095289af4d8f9cb991a89ab8f7ac17d05e201c80a43d750
 size 48680136

 version https://git-lfs.github.com/spec/v1
+oid sha256:8346ab13f4b7b21d2b29112b8902325a29dd3b846c062714d1a52cc8e3529039
 size 48680136

last-checkpoint/global_step2527/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6430755e4d771a1d655da6a1122a88c06170b3283533cff22655ca0c300bc051
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28ca477b3d667f9bd120a3f5a0027056380a000cb2c785e3fe48573dfbadae75
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4143120b3fd3d0d24bbb06c958d63707e92aa4c5608c462cc256587b07bd48ae
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:099aadae436f7329944571a6f95df04b3350e34b231b01a5b18f510dcb0825d6
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d92d1db126a6c00c0911057ddc047de4f28b675d5ccd74f1c4acf86ffede2051
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bff6ba32ab439063f5a6f5d43a0235bd6ded54cc7f5ed534b621ca96385b3c0
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa6eab5768c985a15d15daec830906bf954e42edc06c6d64dfb78b6745f51c5b
+size 36474352

last-checkpoint/global_step2527/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:556d2e56ffee6c65efb42cecab9b558ae4d59b452762ba18ad76882392357d22
+size 36474352

last-checkpoint/global_step2527/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a899397f8e1be9eece0d2cff42a99a02b88d1d3919acf5627d8b45ec803faf9c
+size 390451

last-checkpoint/global_step2527/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0db1c1c054d19eb3996ec805796d485095f52b86ec41bef01e1836f441978533
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2ebe7aef19a19af80ff1ee3b138d90ac19ded2df55cf1b4f48a7ff1bc200945
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:626ab93bae5148e7ec4008808d2d0bd4e5f6b1218e8c6fc74862d0c2eea59369
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f1e277faa2b654951b677e101231e6ef09a2f3aff4c548c70549d90dfff4993
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d86545118cda5ad95577530de8b0298285184172fe3fd4ef69b743506cd581ca
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80a94252d81267a9b39b875517331b81ed9ff36646278c02ed653bb435373d66
+size 390387

last-checkpoint/global_step2527/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa1e7083f8aee635a411566a4eba90d63697b0c3943fef588ac35000614a4f80
+size 390387

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2500~~


1	+ global_step2527

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81287e1bd7817d340fa24ba2d775c697b44328692c841f6abb04651d910dd20c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c02adaeb104a456cce73f3dfce7ef82bd1d39537f6f938fef85bbda510bd32a
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28a2f47a8a6f6d8908b06437c1851b7dcfa705eba5b227f57858376a257ff177
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f975a10d97cf0c5780ff024524346681750a4672878c083063f7246a341e0fa2
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63623cf176c6ea338adb1ff3c4dffaf16810cbe82397e908eaa127b01f1ab78e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6fb704c634e883f9e3881266a3dcb5ba23374c8ebf181812c9f96a130e61f66
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da1f18bdc5c79026824ae21e666bcb39fd9922a2d5e894c2b253f836af389f0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc646933e05a0c4234556cd6f0c7075bab2d33a5950ff4bbe972166c1092320
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af0b57d66bd28f8e84aaead1bb5cd7c446078d8fb3176d583be1809286a84b7d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b495a6c499c1edc6102a33cf75929a4f32fe1644e38ef1d57d162fb64bfb915f
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:653b5ed27f4cc6de76391f48dca4d3c78f9e6e17745f1d274a4544a867ca7c9c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f8a3798560394c1c82cce7ebec75141fc923441919268c7c53e22a06fb17656
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f837177955eab79c8e484c2a97eb2e9234f5d06229dc6de88173952329dbca1d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b1aedf073e7fd48123a8e0decc6dd465a3bcde85b1242e59856358cf0587a7d
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83c9842a67fe490af4017a0fb86289ddb7e4ce626db16e6004895f4e001d8da2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:26c6ae9753603f5ca51b6367b59f3afc788d1cceb974eb84386f65a6283806de
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1d45a8271b405c109f9421946a2c9aa711e0021dafc381cb8dbd279e4e68e8e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba1417a4512f0520215fff01c82d65455bbbf8bb1817ff1d5e6b2e4fc2d3773d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9893153937475268,
   "eval_steps": 5,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -26024,6 +26024,280 @@
       "eval_samples_per_second": 6.589,
       "eval_steps_per_second": 0.22,
       "step": 2500
     }
   ],
   "logging_steps": 1,
@@ -26038,12 +26312,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2521360671571968.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 5,
+  "global_step": 2527,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.589,
       "eval_steps_per_second": 0.22,
       "step": 2500
+    },
+    {
+      "epoch": 0.9897111199050257,
+      "grad_norm": 0.7640975936543402,
+      "learning_rate": 3.225216210623327e-08,
+      "loss": 0.1595,
+      "step": 2501
+    },
+    {
+      "epoch": 0.9901068460625247,
+      "grad_norm": 0.6935968775183601,
+      "learning_rate": 2.981917874453344e-08,
+      "loss": 0.147,
+      "step": 2502
+    },
+    {
+      "epoch": 0.9905025722200237,
+      "grad_norm": 0.671927431715776,
+      "learning_rate": 2.7481569312381995e-08,
+      "loss": 0.0938,
+      "step": 2503
+    },
+    {
+      "epoch": 0.9908982983775227,
+      "grad_norm": 0.7349943492731037,
+      "learning_rate": 2.52393382713767e-08,
+      "loss": 0.1265,
+      "step": 2504
+    },
+    {
+      "epoch": 0.9912940245350218,
+      "grad_norm": 0.5079188246341098,
+      "learning_rate": 2.3092489901083148e-08,
+      "loss": 0.1685,
+      "step": 2505
+    },
+    {
+      "epoch": 0.9912940245350218,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8566158386620757,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3131347596645355,
+      "eval_runtime": 4.2821,
+      "eval_samples_per_second": 7.006,
+      "eval_steps_per_second": 0.234,
+      "step": 2505
+    },
+    {
+      "epoch": 0.9916897506925207,
+      "grad_norm": 0.7550093866508485,
+      "learning_rate": 2.1041028299012555e-08,
+      "loss": 0.1852,
+      "step": 2506
+    },
+    {
+      "epoch": 0.9920854768500198,
+      "grad_norm": 0.84761330923606,
+      "learning_rate": 1.908495738061067e-08,
+      "loss": 0.15,
+      "step": 2507
+    },
+    {
+      "epoch": 0.9924812030075187,
+      "grad_norm": 0.5014629514556076,
+      "learning_rate": 1.7224280879279964e-08,
+      "loss": 0.1174,
+      "step": 2508
+    },
+    {
+      "epoch": 0.9928769291650178,
+      "grad_norm": 0.7739608773483745,
+      "learning_rate": 1.5459002346324135e-08,
+      "loss": 0.1267,
+      "step": 2509
+    },
+    {
+      "epoch": 0.9932726553225169,
+      "grad_norm": 0.6174389258151092,
+      "learning_rate": 1.3789125150998061e-08,
+      "loss": 0.1471,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9932726553225169,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8541564190850959,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3146809935569763,
+      "eval_runtime": 5.0007,
+      "eval_samples_per_second": 5.999,
+      "eval_steps_per_second": 0.2,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9936683814800158,
+      "grad_norm": 0.8881221027776471,
+      "learning_rate": 1.2214652480452282e-08,
+      "loss": 0.1881,
+      "step": 2511
+    },
+    {
+      "epoch": 0.9940641076375148,
+      "grad_norm": 0.6711036576482892,
+      "learning_rate": 1.0735587339749665e-08,
+      "loss": 0.1136,
+      "step": 2512
+    },
+    {
+      "epoch": 0.9944598337950139,
+      "grad_norm": 0.7811317531255666,
+      "learning_rate": 9.351932551854292e-09,
+      "loss": 0.1778,
+      "step": 2513
+    },
+    {
+      "epoch": 0.9948555599525128,
+      "grad_norm": 0.8843034018155372,
+      "learning_rate": 8.063690757642572e-09,
+      "loss": 0.2367,
+      "step": 2514
+    },
+    {
+      "epoch": 0.9952512861100119,
+      "grad_norm": 0.8913039576623297,
+      "learning_rate": 6.8708644158754775e-09,
+      "loss": 0.1645,
+      "step": 2515
+    },
+    {
+      "epoch": 0.9952512861100119,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8553861288735858,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3146321475505829,
+      "eval_runtime": 4.3747,
+      "eval_samples_per_second": 6.858,
+      "eval_steps_per_second": 0.229,
+      "step": 2515
+    },
+    {
+      "epoch": 0.9956470122675108,
+      "grad_norm": 0.6541800097659761,
+      "learning_rate": 5.773455803187444e-09,
+      "loss": 0.1339,
+      "step": 2516
+    },
+    {
+      "epoch": 0.9960427384250099,
+      "grad_norm": 0.5875809598684076,
+      "learning_rate": 4.771467014125231e-09,
+      "loss": 0.1672,
+      "step": 2517
+    },
+    {
+      "epoch": 0.996438464582509,
+      "grad_norm": 0.7159822425927463,
+      "learning_rate": 3.864899961097956e-09,
+      "loss": 0.1658,
+      "step": 2518
+    },
+    {
+      "epoch": 0.9968341907400079,
+      "grad_norm": 1.0406525491292937,
+      "learning_rate": 3.053756374393757e-09,
+      "loss": 0.2251,
+      "step": 2519
+    },
+    {
+      "epoch": 0.997229916897507,
+      "grad_norm": 0.6871265678261859,
+      "learning_rate": 2.338037802174231e-09,
+      "loss": 0.1341,
+      "step": 2520
+    },
+    {
+      "epoch": 0.997229916897507,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8566158386620757,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.31285807490348816,
+      "eval_runtime": 4.6229,
+      "eval_samples_per_second": 6.489,
+      "eval_steps_per_second": 0.216,
+      "step": 2520
+    },
+    {
+      "epoch": 0.9976256430550059,
+      "grad_norm": 0.6838195939717506,
+      "learning_rate": 1.7177456104688905e-09,
+      "loss": 0.185,
+      "step": 2521
+    },
+    {
+      "epoch": 0.998021369212505,
+      "grad_norm": 0.9441501978794823,
+      "learning_rate": 1.1928809831807108e-09,
+      "loss": 0.2185,
+      "step": 2522
+    },
+    {
+      "epoch": 0.998417095370004,
+      "grad_norm": 0.6337380468158322,
+      "learning_rate": 7.634449220805806e-10,
+      "loss": 0.1319,
+      "step": 2523
+    },
+    {
+      "epoch": 0.998812821527503,
+      "grad_norm": 0.48889023343641086,
+      "learning_rate": 4.294382467906477e-10,
+      "loss": 0.11,
+      "step": 2524
+    },
+    {
+      "epoch": 0.999208547685002,
+      "grad_norm": 0.898426655651998,
+      "learning_rate": 1.9086159480097287e-10,
+      "loss": 0.1946,
+      "step": 2525
+    },
+    {
+      "epoch": 0.999208547685002,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.854402361042794,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3133951723575592,
+      "eval_runtime": 4.4087,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 0.227,
+      "step": 2525
+    },
+    {
+      "epoch": 0.999604273842501,
+      "grad_norm": 0.6412635302679868,
+      "learning_rate": 4.771542146952967e-11,
+      "loss": 0.1794,
+      "step": 2526
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.7990569727457182,
+      "learning_rate": 0.0,
+      "loss": 0.1372,
+      "step": 2527
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2549072128245760.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null