Training in progress, epoch 7, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1352/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1352/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1352/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1352/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1352/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49db62516068e315a0097a3075f5d9eed4dabca56b289242354c5050a5096985
 size 555780720

 version https://git-lfs.github.com/spec/v1
+oid sha256:86839f7e37cf9db50d92aa3359c8a951b16bcb9bd19179d97785c9380e60d4de
 size 555780720

last-checkpoint/global_step1352/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa5f32f83b8dd1abdff17aa4d8a62cf2df4d05afc1f775aa2f6b93598139e4b4
+size 418993765

last-checkpoint/global_step1352/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fc2fc0cd5ce123568d266b89c4f539a173812273213ba02d058dfdf7b623daf
+size 418993829

last-checkpoint/global_step1352/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd31753cbe0128c999d089e0b6ae68cd9dc9534e5009bc8833ba113b6cfc75e4
+size 418993829

last-checkpoint/global_step1352/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a79f62be1ee42d6d4cdaa1d1ae0c25bb27a3f27a7ee18554197caf2fc8ddc5d
+size 418993829

last-checkpoint/global_step1352/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c178a80caac549930759dd5ddeae56a0eebd44125e85347a79d3546d5ea720a
+size 555959385

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1302~~


1	+ global_step1352

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:091086836d56ce2653ecffb0ae0f470c5a0c8f5e4a0321adebb5dd8b3f287883
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:95a3c87bc88363e3f4b77947b12ea79773944af0114a1b604be41b603f0e088e
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3875f6c478f16e9290e84b32d47c7894416bef16616ab5dfccda0fa82d7497c4
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:339163084457ee5fe928af6d9e73b4f74db7625bc6e88a289af439ef57976bfb
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28580ca8aa74ba18bb130eb4176d6089e133b9d613d7916e228f3be22455fa61
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d12472ec366ee397869b0f92eb4add458e30b5e37a8a371422c324e97a75e38b
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7562bb51e5532124c41799cff8e5925d7e80b45c0e9f1a3be4f480ba2d42417
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e20f7fa0cdcee712ddbb996fd4afd5bdb4a4fcb884815462037415fce9b45978
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d67d662c9022ab09c104c0ce3351b238323049b4af79030deb9d3b09a56fd83b
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:06ca58d1a0dee9bbca88545d604f59334241351618fe2f019276217fe27d5f25
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.15382565557956696,
   "best_model_checkpoint": null,
-  "epoch": 7.064996614759648,
   "eval_steps": 50,
-  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4324,6 +4324,172 @@
       "eval_samples_per_second": 44.586,
       "eval_steps_per_second": 2.834,
       "step": 1300
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.13855531811714172,
   "best_model_checkpoint": null,
+  "epoch": 7.3358158429248475,
   "eval_steps": 50,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 44.586,
       "eval_steps_per_second": 2.834,
       "step": 1300
+    },
+    {
+      "epoch": 7.0920785375761675,
+      "grad_norm": 0.9328561425209045,
+      "learning_rate": 1.2436575721991239e-05,
+      "logits/chosen": -0.8173828125,
+      "logits/rejected": NaN,
+      "logps/chosen": -368.45001220703125,
+      "logps/rejected": -367.8500061035156,
+      "loss": 0.1569,
+      "rewards/accuracies": 0.9453125,
+      "rewards/chosen": -7.185156345367432,
+      "rewards/margins": 3.2300782203674316,
+      "rewards/rejected": -10.420312881469727,
+      "step": 1305
+    },
+    {
+      "epoch": 7.1191604603926875,
+      "grad_norm": 1.522709608078003,
+      "learning_rate": 1.2432752041311519e-05,
+      "logits/chosen": -0.8003906011581421,
+      "logits/rejected": -0.82373046875,
+      "logps/chosen": -369.20001220703125,
+      "logps/rejected": -381.8999938964844,
+      "loss": 0.1374,
+      "rewards/accuracies": 0.9468749761581421,
+      "rewards/chosen": -6.989062309265137,
+      "rewards/margins": 3.359375,
+      "rewards/rejected": -10.346875190734863,
+      "step": 1310
+    },
+    {
+      "epoch": 7.1462423832092075,
+      "grad_norm": 1.6700057983398438,
+      "learning_rate": 1.2428913301215597e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": -0.8626953363418579,
+      "logps/chosen": -356.04998779296875,
+      "logps/rejected": -373.29998779296875,
+      "loss": 0.1575,
+      "rewards/accuracies": 0.934374988079071,
+      "rewards/chosen": -6.440625190734863,
+      "rewards/margins": 3.438671827316284,
+      "rewards/rejected": -9.872655868530273,
+      "step": 1315
+    },
+    {
+      "epoch": 7.1733243060257275,
+      "grad_norm": 1.6624808311462402,
+      "learning_rate": 1.2425059511367494e-05,
+      "logits/chosen": -0.8272460699081421,
+      "logits/rejected": -0.835644543170929,
+      "logps/chosen": -361.6000061035156,
+      "logps/rejected": -364.6000061035156,
+      "loss": 0.1679,
+      "rewards/accuracies": 0.940625011920929,
+      "rewards/chosen": -6.254687309265137,
+      "rewards/margins": 3.313281297683716,
+      "rewards/rejected": -9.573437690734863,
+      "step": 1320
+    },
+    {
+      "epoch": 7.2004062288422475,
+      "grad_norm": 2.2478160858154297,
+      "learning_rate": 1.2421190681469124e-05,
+      "logits/chosen": -0.782519519329071,
+      "logits/rejected": NaN,
+      "logps/chosen": -355.54998779296875,
+      "logps/rejected": -364.625,
+      "loss": 0.1743,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -6.853125095367432,
+      "rewards/margins": 2.9222655296325684,
+      "rewards/rejected": -9.770312309265137,
+      "step": 1325
+    },
+    {
+      "epoch": 7.2274881516587675,
+      "grad_norm": 1.1094180345535278,
+      "learning_rate": 1.241730682126026e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": -0.796191394329071,
+      "logps/chosen": -369.8500061035156,
+      "logps/rejected": -372.1000061035156,
+      "loss": 0.1671,
+      "rewards/accuracies": 0.953125,
+      "rewards/chosen": -7.446875095367432,
+      "rewards/margins": 2.931640625,
+      "rewards/rejected": -10.378125190734863,
+      "step": 1330
+    },
+    {
+      "epoch": 7.2545700744752875,
+      "grad_norm": 1.275765299797058,
+      "learning_rate": 1.2413407940518518e-05,
+      "logits/chosen": -0.8089843988418579,
+      "logits/rejected": -0.8099609613418579,
+      "logps/chosen": -370.5,
+      "logps/rejected": -388.04998779296875,
+      "loss": 0.1589,
+      "rewards/accuracies": 0.9453125,
+      "rewards/chosen": -7.414843559265137,
+      "rewards/margins": 3.5,
+      "rewards/rejected": -10.917187690734863,
+      "step": 1335
+    },
+    {
+      "epoch": 7.2816519972918075,
+      "grad_norm": 1.6279685497283936,
+      "learning_rate": 1.2409494049059322e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": -0.7696288824081421,
+      "logps/chosen": -366.95001220703125,
+      "logps/rejected": -403.3500061035156,
+      "loss": 0.1804,
+      "rewards/accuracies": 0.9296875,
+      "rewards/chosen": -7.529687404632568,
+      "rewards/margins": 3.614453077316284,
+      "rewards/rejected": -11.146875381469727,
+      "step": 1340
+    },
+    {
+      "epoch": 7.3087339201083275,
+      "grad_norm": 1.6767570972442627,
+      "learning_rate": 1.2405565156735891e-05,
+      "logits/chosen": -0.6883789300918579,
+      "logits/rejected": -0.69970703125,
+      "logps/chosen": -386.6499938964844,
+      "logps/rejected": -387.95001220703125,
+      "loss": 0.1821,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -7.953906059265137,
+      "rewards/margins": 3.3148436546325684,
+      "rewards/rejected": -11.268750190734863,
+      "step": 1345
+    },
+    {
+      "epoch": 7.3358158429248475,
+      "grad_norm": 1.182672142982483,
+      "learning_rate": 1.2401621273439206e-05,
+      "logits/chosen": -0.683789074420929,
+      "logits/rejected": -0.6509765386581421,
+      "logps/chosen": -375.29998779296875,
+      "logps/rejected": -388.8999938964844,
+      "loss": 0.1432,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -7.917187690734863,
+      "rewards/margins": 3.202343702316284,
+      "rewards/rejected": -11.123437881469727,
+      "step": 1350
+    },
+    {
+      "epoch": 7.3358158429248475,
+      "eval_logits/chosen": -0.6861979365348816,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -375.1111145019531,
+      "eval_logps/rejected": -389.20001220703125,
+      "eval_loss": 0.13855531811714172,
+      "eval_rewards/accuracies": 0.9513888955116272,
+      "eval_rewards/chosen": -7.346527576446533,
+      "eval_rewards/margins": 3.3333332538604736,
+      "eval_rewards/rejected": -10.679166793823242,
+      "eval_runtime": 15.8625,
+      "eval_samples_per_second": 44.634,
+      "eval_steps_per_second": 2.837,
+      "step": 1350
     }
   ],
   "logging_steps": 5,