Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a096816bc6cc964e6aaf1c6330b84f1e3b01a0d52636a4c6d86f3230fc32a33
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:da013167ea1fa3cf2c2603b4a7d46a3cd74f4b5970643aa9d1d7f0613ecbef66
 size 1172343536

last-checkpoint/global_step150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bc3aa29674c3214fa4b03b95fb358bef5df2dba12eb937beed729d5b9a2ea3b
+size 883824229

last-checkpoint/global_step150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b15e215ec4c2b6e24ce43cd03f4045890df8a40ad24f0c0f168d9a1267d44c1e
+size 883824293

last-checkpoint/global_step150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adc752d174ff3e0fee6caa7f0f6f86c6a1e6277bc9f263750478e187f8ffc958
+size 883824293

last-checkpoint/global_step150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7434a36f8f10b1f9397540c8a9b8572327d4ffa13c3db26eef4bee4acee0a5cb
+size 883824293

last-checkpoint/global_step150/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7044a98acd81cae918f70b40374f4cb306e767af643b0ab7bea4531ca291115
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step100~~


1	+ global_step150

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c213a373f3e5d95993ad095a3790a902d821a1b4b93a10cc7d382c8726fcb9d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dc21751f56a807ad2a7d09eea3bbe867a0c8e0f3d829004cfe097808a8a849d
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fb125336725f7741cb4daa1e3d06e225bbacfde8d41c4dcabb6762c222e62c6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:69adbd9997461473344beb9c44d2e496e24fbc4d6fe69245ab0bd127882efd96
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:153c865f77c7129ba565bded50f334683d51c80f20e3cfec39e62f8737b86f0d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:baaf7026d9e588ca2ba5b4de8768a379982b7530f39e0b88fa44af9bef8e8bc9
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d017ce00fcebac7edc058ddd138f194eb0340f2d8ad0879bdab08f922ed0846e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ec81cbdf599c90b49fb13998f6e46e2492b55345216231b6ce078f88cf04eae
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbc0d4e4c76dcef8ac9920ea714956d75297a72900b431e5e4b36d7306707417
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:1364855766bf8839ae8db6186dd25d586d587683d30170f8eb04a09add2c6cb7
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.09547534584999084,
   "best_model_checkpoint": null,
-  "epoch": 0.08686210640608034,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -340,6 +340,172 @@
       "eval_samples_per_second": 45.264,
       "eval_steps_per_second": 2.837,
       "step": 100
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.07959119230508804,
   "best_model_checkpoint": null,
+  "epoch": 0.13029315960912052,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.264,
       "eval_steps_per_second": 2.837,
       "step": 100
+    },
+    {
+      "epoch": 0.09120521172638436,
+      "grad_norm": 1.3292784690856934,
+      "learning_rate": 2.5990814712435418e-05,
+      "logits/chosen": -0.87548828125,
+      "logits/rejected": -1.120507836341858,
+      "logps/chosen": -91.2249984741211,
+      "logps/rejected": -159.8125,
+      "loss": 0.0917,
+      "rewards/accuracies": 0.9671875238418579,
+      "rewards/chosen": -0.7750244140625,
+      "rewards/margins": 7.48046875,
+      "rewards/rejected": -8.256250381469727,
+      "step": 105
+    },
+    {
+      "epoch": 0.09554831704668838,
+      "grad_norm": 2.2035844326019287,
+      "learning_rate": 2.5990772181744683e-05,
+      "logits/chosen": -0.909472644329071,
+      "logits/rejected": -1.1706054210662842,
+      "logps/chosen": -92.8125,
+      "logps/rejected": -161.5625,
+      "loss": 0.0866,
+      "rewards/accuracies": 0.9609375,
+      "rewards/chosen": -1.5016601085662842,
+      "rewards/margins": 7.446093559265137,
+      "rewards/rejected": -8.949999809265137,
+      "step": 110
+    },
+    {
+      "epoch": 0.0998914223669924,
+      "grad_norm": 2.766643524169922,
+      "learning_rate": 2.5990696935251653e-05,
+      "logits/chosen": -0.82568359375,
+      "logits/rejected": -1.0691406726837158,
+      "logps/chosen": -104.6875,
+      "logps/rejected": -171.10000610351562,
+      "loss": 0.0812,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -3.0482420921325684,
+      "rewards/margins": 8.084375381469727,
+      "rewards/rejected": -11.128125190734863,
+      "step": 115
+    },
+    {
+      "epoch": 0.10423452768729642,
+      "grad_norm": 2.065037965774536,
+      "learning_rate": 2.5990588973145764e-05,
+      "logits/chosen": -0.778124988079071,
+      "logits/rejected": -1.040136694908142,
+      "logps/chosen": -101.86250305175781,
+      "logps/rejected": -184.52499389648438,
+      "loss": 0.0543,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.14453125,
+      "rewards/margins": 9.585156440734863,
+      "rewards/rejected": -12.731249809265137,
+      "step": 120
+    },
+    {
+      "epoch": 0.10857763300760044,
+      "grad_norm": 3.79853892326355,
+      "learning_rate": 2.5990448295698815e-05,
+      "logits/chosen": -0.757519543170929,
+      "logits/rejected": -1.0046875476837158,
+      "logps/chosen": -108.6875,
+      "logps/rejected": -190.875,
+      "loss": 0.0784,
+      "rewards/accuracies": 0.964062511920929,
+      "rewards/chosen": -3.673828125,
+      "rewards/margins": 10.366406440734863,
+      "rewards/rejected": -14.034375190734863,
+      "step": 125
+    },
+    {
+      "epoch": 0.11292073832790445,
+      "grad_norm": 4.219810485839844,
+      "learning_rate": 2.599027490326495e-05,
+      "logits/chosen": -0.782031238079071,
+      "logits/rejected": -1.0291016101837158,
+      "logps/chosen": -109.0875015258789,
+      "logps/rejected": -196.97500610351562,
+      "loss": 0.0804,
+      "rewards/accuracies": 0.971875011920929,
+      "rewards/chosen": -4.274609565734863,
+      "rewards/margins": 11.017969131469727,
+      "rewards/rejected": -15.2890625,
+      "step": 130
+    },
+    {
+      "epoch": 0.11726384364820847,
+      "grad_norm": 1.3667126893997192,
+      "learning_rate": 2.5990068796280694e-05,
+      "logits/chosen": -0.779296875,
+      "logits/rejected": -1.023535132408142,
+      "logps/chosen": -105.11250305175781,
+      "logps/rejected": -195.35000610351562,
+      "loss": 0.074,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -3.210156202316284,
+      "rewards/margins": 11.37109375,
+      "rewards/rejected": -14.576562881469727,
+      "step": 135
+    },
+    {
+      "epoch": 0.12160694896851248,
+      "grad_norm": 0.8185409307479858,
+      "learning_rate": 2.598982997526492e-05,
+      "logits/chosen": -0.807812511920929,
+      "logits/rejected": -1.052636742591858,
+      "logps/chosen": -98.4749984741211,
+      "logps/rejected": -182.64999389648438,
+      "loss": 0.0784,
+      "rewards/accuracies": 0.973437488079071,
+      "rewards/chosen": -2.216113328933716,
+      "rewards/margins": 10.45703125,
+      "rewards/rejected": -12.676562309265137,
+      "step": 140
+    },
+    {
+      "epoch": 0.1259500542888165,
+      "grad_norm": 2.323435068130493,
+      "learning_rate": 2.5989558440818854e-05,
+      "logits/chosen": -0.788769543170929,
+      "logits/rejected": -1.0691406726837158,
+      "logps/chosen": -98.23750305175781,
+      "logps/rejected": -182.10000610351562,
+      "loss": 0.061,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -2.0738282203674316,
+      "rewards/margins": 10.215624809265137,
+      "rewards/rejected": -12.293749809265137,
+      "step": 145
+    },
+    {
+      "epoch": 0.13029315960912052,
+      "grad_norm": 1.7904131412506104,
+      "learning_rate": 2.5989254193626093e-05,
+      "logits/chosen": -0.751660168170929,
+      "logits/rejected": -1.034082055091858,
+      "logps/chosen": -97.48750305175781,
+      "logps/rejected": -176.22500610351562,
+      "loss": 0.0658,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -1.735742211341858,
+      "rewards/margins": 9.532812118530273,
+      "rewards/rejected": -11.264843940734863,
+      "step": 150
+    },
+    {
+      "epoch": 0.13029315960912052,
+      "eval_logits/chosen": -0.7027442455291748,
+      "eval_logits/rejected": -0.9837121963500977,
+      "eval_logps/chosen": -95.8628158569336,
+      "eval_logps/rejected": -169.9115447998047,
+      "eval_loss": 0.07959119230508804,
+      "eval_rewards/accuracies": 0.9699909687042236,
+      "eval_rewards/chosen": -1.6822011470794678,
+      "eval_rewards/margins": 8.833145141601562,
+      "eval_rewards/rejected": -10.516019821166992,
+      "eval_runtime": 97.6044,
+      "eval_samples_per_second": 45.285,
+      "eval_steps_per_second": 2.838,
+      "step": 150
     }
   ],
   "logging_steps": 5,