Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da013167ea1fa3cf2c2603b4a7d46a3cd74f4b5970643aa9d1d7f0613ecbef66
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7d696805c33619b84f2fedbcdd5a68607d7306abf5dbf4533f634e4982f5c8
 size 1172343536

last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf16ed368a600d277fefa127eb7bd51d4425d02c1295916f8e6dabd62576a579
+size 883824229

last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7b683aadce016b516f68c28a00f6dec6a4b48f3461e2b15e7485cdc143b6ad6
+size 883824293

last-checkpoint/global_step200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bc266731f510a3524e59f5c44e8e4f88929d533de5658ef8f53f3dc06c2228e
+size 883824293

last-checkpoint/global_step200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9611a34df5478b6c4f3853f043ba4c2f69d27ef6010e32a7a94a8fcdd0d346f
+size 883824293

last-checkpoint/global_step200/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8529c0392fe7f20dafe3c781e6ef68c62b7fbc32a4c2150c61a180b83c64c208
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step150~~


1	+ global_step200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dc21751f56a807ad2a7d09eea3bbe867a0c8e0f3d829004cfe097808a8a849d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:81d5f83aeb4b3f559bd28377336d47659b320e7f6ef2e5a723d284716278a151
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69adbd9997461473344beb9c44d2e496e24fbc4d6fe69245ab0bd127882efd96
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2626437dcb133ffcf003ac89603f8cce07459b93a98d760cd9419e0d6a994067
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baaf7026d9e588ca2ba5b4de8768a379982b7530f39e0b88fa44af9bef8e8bc9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae777e24d50cb7159634e1245f0697ba0fc64d5b26d535f2c80e411371a90b1c
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec81cbdf599c90b49fb13998f6e46e2492b55345216231b6ce078f88cf04eae
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:afc5a67564eebcfc961e8f1406a7418cc73497c2935a39af0232ef59f8153a6a
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1364855766bf8839ae8db6186dd25d586d587683d30170f8eb04a09add2c6cb7
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:331d42834d40f6ab9fe0c79a5f67902cd952ec456fbe0c511bb4b4fc0a7cf69b
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.07959119230508804,
   "best_model_checkpoint": null,
-  "epoch": 0.13029315960912052,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -506,6 +506,172 @@
       "eval_samples_per_second": 45.285,
       "eval_steps_per_second": 2.838,
       "step": 150
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.06463618576526642,
   "best_model_checkpoint": null,
+  "epoch": 0.1737242128121607,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.285,
       "eval_steps_per_second": 2.838,
       "step": 150
+    },
+    {
+      "epoch": 0.13463626492942454,
+      "grad_norm": 0.9481019973754883,
+      "learning_rate": 2.5988917234452568e-05,
+      "logits/chosen": -0.7090820074081421,
+      "logits/rejected": -1.00244140625,
+      "logps/chosen": -95.23750305175781,
+      "logps/rejected": -174.4250030517578,
+      "loss": 0.0439,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -1.6262695789337158,
+      "rewards/margins": 9.666406631469727,
+      "rewards/rejected": -11.287500381469727,
+      "step": 155
+    },
+    {
+      "epoch": 0.13897937024972856,
+      "grad_norm": 3.119917392730713,
+      "learning_rate": 2.598854756414658e-05,
+      "logits/chosen": -0.706250011920929,
+      "logits/rejected": -1.006445288658142,
+      "logps/chosen": -100.73750305175781,
+      "logps/rejected": -195.52499389648438,
+      "loss": 0.0753,
+      "rewards/accuracies": 0.973437488079071,
+      "rewards/chosen": -2.6958985328674316,
+      "rewards/margins": 12.09375,
+      "rewards/rejected": -14.793749809265137,
+      "step": 160
+    },
+    {
+      "epoch": 0.14332247557003258,
+      "grad_norm": 2.0484530925750732,
+      "learning_rate": 2.5988145183638775e-05,
+      "logits/chosen": -0.687695324420929,
+      "logits/rejected": -0.9659179449081421,
+      "logps/chosen": -99.67500305175781,
+      "logps/rejected": -186.60000610351562,
+      "loss": 0.08,
+      "rewards/accuracies": 0.973437488079071,
+      "rewards/chosen": -2.467578172683716,
+      "rewards/margins": 11.5,
+      "rewards/rejected": -13.967187881469727,
+      "step": 165
+    },
+    {
+      "epoch": 0.1476655808903366,
+      "grad_norm": 1.163669228553772,
+      "learning_rate": 2.598771009394214e-05,
+      "logits/chosen": -0.692333996295929,
+      "logits/rejected": -1.009374976158142,
+      "logps/chosen": -92.625,
+      "logps/rejected": -175.4875030517578,
+      "loss": 0.0796,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -1.3732726573944092,
+      "rewards/margins": 10.21484375,
+      "rewards/rejected": -11.586718559265137,
+      "step": 170
+    },
+    {
+      "epoch": 0.15200868621064062,
+      "grad_norm": 1.496293067932129,
+      "learning_rate": 2.5987242296152015e-05,
+      "logits/chosen": -0.6812499761581421,
+      "logits/rejected": -1.025781273841858,
+      "logps/chosen": -89.7874984741211,
+      "logps/rejected": -173.60000610351562,
+      "loss": 0.0515,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -0.5631958246231079,
+      "rewards/margins": 10.517969131469727,
+      "rewards/rejected": -11.086718559265137,
+      "step": 175
+    },
+    {
+      "epoch": 0.1563517915309446,
+      "grad_norm": 0.6427134871482849,
+      "learning_rate": 2.598674179144608e-05,
+      "logits/chosen": -0.731152355670929,
+      "logits/rejected": -1.055761694908142,
+      "logps/chosen": -101.48750305175781,
+      "logps/rejected": -194.52499389648438,
+      "loss": 0.0468,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -2.1346678733825684,
+      "rewards/margins": 11.561718940734863,
+      "rewards/rejected": -13.701562881469727,
+      "step": 180
+    },
+    {
+      "epoch": 0.16069489685124863,
+      "grad_norm": 3.4019172191619873,
+      "learning_rate": 2.598620858108436e-05,
+      "logits/chosen": -0.7110351324081421,
+      "logits/rejected": -1.060156226158142,
+      "logps/chosen": -105.51249694824219,
+      "logps/rejected": -198.5,
+      "loss": 0.072,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.612109422683716,
+      "rewards/margins": 12.0703125,
+      "rewards/rejected": -15.689062118530273,
+      "step": 185
+    },
+    {
+      "epoch": 0.16503800217155265,
+      "grad_norm": 2.8528225421905518,
+      "learning_rate": 2.5985642666409204e-05,
+      "logits/chosen": -0.6353515386581421,
+      "logits/rejected": -0.9964843988418579,
+      "logps/chosen": -105.625,
+      "logps/rejected": -196.8000030517578,
+      "loss": 0.0611,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -3.4736328125,
+      "rewards/margins": 11.747655868530273,
+      "rewards/rejected": -15.225000381469727,
+      "step": 190
+    },
+    {
+      "epoch": 0.16938110749185667,
+      "grad_norm": 2.388313055038452,
+      "learning_rate": 2.5985044048845307e-05,
+      "logits/chosen": -0.529296875,
+      "logits/rejected": -0.940234363079071,
+      "logps/chosen": -105.25,
+      "logps/rejected": -194.1999969482422,
+      "loss": 0.0618,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -3.1537108421325684,
+      "rewards/margins": 11.405468940734863,
+      "rewards/rejected": -14.560937881469727,
+      "step": 195
+    },
+    {
+      "epoch": 0.1737242128121607,
+      "grad_norm": 1.6818196773529053,
+      "learning_rate": 2.5984412729899686e-05,
+      "logits/chosen": -0.42333984375,
+      "logits/rejected": -0.798632800579071,
+      "logps/chosen": -102.2125015258789,
+      "logps/rejected": -185.64999389648438,
+      "loss": 0.0601,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -2.742382764816284,
+      "rewards/margins": 10.553906440734863,
+      "rewards/rejected": -13.293749809265137,
+      "step": 200
+    },
+    {
+      "epoch": 0.1737242128121607,
+      "eval_logits/chosen": -0.41209879517555237,
+      "eval_logits/rejected": -0.7723516225814819,
+      "eval_logps/chosen": -102.44945526123047,
+      "eval_logps/rejected": -186.8014373779297,
+      "eval_loss": 0.06463618576526642,
+      "eval_rewards/accuracies": 0.9745036363601685,
+      "eval_rewards/chosen": -2.8919081687927246,
+      "eval_rewards/margins": 10.732288360595703,
+      "eval_rewards/rejected": -13.622066497802734,
+      "eval_runtime": 97.6846,
+      "eval_samples_per_second": 45.248,
+      "eval_steps_per_second": 2.836,
+      "step": 200
     }
   ],
   "logging_steps": 5,