Training in progress, step 400, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +120 -2

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:498927c08771e04a831f83e7a148866b9ec2d9236382d3fca73a82829ba3e116
 size 4962001760

 version https://git-lfs.github.com/spec/v1
+oid sha256:525eac99ad96fc44058191ab19adc5993ebaea58b8e0178702747f1ee3435202
 size 4962001760

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbf18cb7323bdf103c060825194b12041cd9f65527e6801e58f01c2af2518636
 size 4915916160

 version https://git-lfs.github.com/spec/v1
+oid sha256:558c4922ee8c74243d0fdb31e3e04330963270eac20e7e5f27843b699e5bb2a2
 size 4915916160

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf047b0776c247cd18bfec687a84a46e4c272eaf95d4cf533bebf3adf64f86ee
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:56220ae9514cffaa65f5e69f741b689c6b09c909e431ece359e6cc8fc172facf
 size 4999819336

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a83528af594926033e99367dc5529ec2083f14bb66aeb7d9573f7d56ce7848fe
 size 1623221024

 version https://git-lfs.github.com/spec/v1
+oid sha256:04b75675ac64f9f371e8692d260bb19c22ec999a3cdfd5bed397548ae96194d4
 size 1623221024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa69d5d5f89ce23f9d6b71b738413f9206b416237feabf7585aeab96db924124
 size 13053963

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bbbf775bc02f0e5313eea63ceadf33473d5eb33db11880946d7f8cd32301931
 size 13053963

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:289f39013137940cf1ee5449b041384da04bc9bb685618953fd31d6c772eea95
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:a163c08920e0f5521e8b4bad62b9d358b8cbc6506edd88b7096a6ffc2a7c242d
 size 16389

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:989bd77ff2885f40e3c715332e40e1c540ff701d6b100ef8efad9627d7d3c776
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:876bd3e9fc68db1c95fed624955b5fd3f484c7a9299d86e57f3ba1ddf3348179
 size 16389

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:377f1d7a96c328bb457e236cce32a38315a6883ea0ab33abae7d9374afeb92c7
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:517ac8bafc12147371b154cd689f10e05f9ee0f90b1a1d98261bc402b3794d28
 size 16389

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0739a97c2722739882afaf6b544115b335b7f2dc177e7fce8c522b3da6991521
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bf5db3a4eb888f369dfe32f926286928204680ca9125437e1b7c7b3f270ab15
 size 16389

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8e3fea8223898c73ab613293e12de1974fe1688bc3594682f3c0aa0de08b3c6
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:f59728ce06aff590492cee7a3ae474ff2766e75b2b0d12b0ecb1e0ed3c034d59
 size 16389

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:968b0e878dc8c9dab1af28d2a5a3c5c25fb01d09bbb5d144524ae269d784486a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c2193cb033eebca6c12e4a1e29534cc18579a6cad159bde288623281c5c35d2
 size 16389

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b79c15f80530d12a2c7921202ae7531199c99ba76f622702271dce29c3ab78c7
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1143ef96cc6fb0d682bd8e4f30c0e8393b47d3bfc04f20f3b76342f03f9600
 size 16389

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:925732ed115662d23fac8942143e41da75815df4736560086168dcda367dc0c5
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:057a179eb770c90e474fec0e25f409212d61bb896d2da1bbccb971884ff21913
 size 16389

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fbc8305b7ca0c6d67c3d651c7ca33470c406cdfe738d0a9715f708a4a927f87
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c002680d92a128e78b90abe033ccb635fd42c0f7b5d06a2d995a5f9b60d18627
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,124 @@
       "loss": 0.2549,
       "rewards/rejected": -1.526987361907959,
       "step": 300
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.333333333333333,
   "eval_steps": 100,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.2549,
       "rewards/rejected": -1.526987361907959,
       "step": 300
+    },
+    {
+      "epoch": 4.133333333333334,
+      "grad_norm": 54.0,
+      "kl": 39.12127685546875,
+      "learning_rate": 5.879999999999999e-07,
+      "logits/chosen": 1737360384.0,
+      "logps/chosen": -1544.43232421875,
+      "loss": 0.4935,
+      "rewards/chosen": 3.9731983184814452,
+      "step": 310
+    },
+    {
+      "epoch": 4.266666666666667,
+      "grad_norm": 172.0,
+      "kl": 46.1120491027832,
+      "learning_rate": 5.746666666666667e-07,
+      "logits/chosen": 1747944038.4,
+      "logps/chosen": -1632.6375,
+      "loss": 0.4933,
+      "rewards/chosen": 4.660909652709961,
+      "step": 320
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 60.0,
+      "kl": 50.143592834472656,
+      "learning_rate": 5.613333333333333e-07,
+      "logits/chosen": 1759613952.0,
+      "logps/chosen": -1568.59072265625,
+      "loss": 0.4785,
+      "rewards/chosen": 5.1204078674316404,
+      "step": 330
+    },
+    {
+      "epoch": 4.533333333333333,
+      "grad_norm": 42.5,
+      "kl": 45.67478942871094,
+      "learning_rate": 5.48e-07,
+      "logits/chosen": 1756831406.5018728,
+      "logits/rejected": 1722636635.7735848,
+      "logps/chosen": -1589.1077949438202,
+      "logps/rejected": -1681.454304245283,
+      "loss": 0.4447,
+      "rewards/chosen": 5.551258558637641,
+      "rewards/margins": 6.024997390931457,
+      "rewards/rejected": -0.47373883229381636,
+      "step": 340
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 217.0,
+      "kl": 0.32102876901626587,
+      "learning_rate": 5.346666666666666e-07,
+      "logits/rejected": 1712375193.6,
+      "logps/rejected": -1534.0259765625,
+      "loss": 0.338,
+      "rewards/rejected": -0.8637893676757813,
+      "step": 350
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 47.0,
+      "kl": 0.029415320605039597,
+      "learning_rate": 5.213333333333333e-07,
+      "logits/rejected": 1739532697.6,
+      "logps/rejected": -1605.47685546875,
+      "loss": 0.2836,
+      "rewards/rejected": -1.2877922058105469,
+      "step": 360
+    },
+    {
+      "epoch": 4.933333333333334,
+      "grad_norm": 50.5,
+      "kl": 0.0,
+      "learning_rate": 5.079999999999999e-07,
+      "logits/rejected": 1720070963.2,
+      "logps/rejected": -1630.8001953125,
+      "loss": 0.2262,
+      "rewards/rejected": -1.7868902206420898,
+      "step": 370
+    },
+    {
+      "epoch": 5.066666666666666,
+      "grad_norm": 70.5,
+      "kl": 21.522884368896484,
+      "learning_rate": 4.946666666666666e-07,
+      "logits/chosen": 1738568908.8,
+      "logits/rejected": 1726313472.0,
+      "logps/chosen": -1644.7123046875,
+      "logps/rejected": -1377.4642578125,
+      "loss": 0.3804,
+      "rewards/chosen": 4.260452651977539,
+      "rewards/margins": 5.9641773223876955,
+      "rewards/rejected": -1.7037246704101563,
+      "step": 380
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 49.75,
+      "kl": 47.77645492553711,
+      "learning_rate": 4.813333333333334e-07,
+      "logits/chosen": 1732489625.6,
+      "logps/chosen": -1525.93984375,
+      "loss": 0.4944,
+      "rewards/chosen": 4.817991256713867,
+      "step": 390
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 50.25,
+      "kl": 49.042144775390625,
+      "learning_rate": 4.68e-07,
+      "logits/chosen": 1741244620.8,
+      "logps/chosen": -1609.87353515625,
+      "loss": 0.4644,
+      "rewards/chosen": 5.071358489990234,
+      "step": 400
     }
   ],
   "logging_steps": 10,