Training in progress, step 300, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +120 -2

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6d7bb49a546070d0f06db42d905c28e11210d2dd3a84556f9776bbdb1c72515
 size 4962001760

 version https://git-lfs.github.com/spec/v1
+oid sha256:498927c08771e04a831f83e7a148866b9ec2d9236382d3fca73a82829ba3e116
 size 4962001760

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7cf2d25394898ae6c044195e091f0137da5d97c36fdcf256310291b6c788153
 size 4915916160

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbf18cb7323bdf103c060825194b12041cd9f65527e6801e58f01c2af2518636
 size 4915916160

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7b626ddfa7b2b2f6c99cb6edd374324fe1cc409795921848907a0fe580e3ae5
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf047b0776c247cd18bfec687a84a46e4c272eaf95d4cf533bebf3adf64f86ee
 size 4999819336

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9155e26da421bd5d4381861155dc2bb5b7da6d04160fa66c7db3e3f4bc84ac41
 size 1623221024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a83528af594926033e99367dc5529ec2083f14bb66aeb7d9573f7d56ce7848fe
 size 1623221024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d331ef78c125b3b95b357c580a6966cc0242f5c30f3e85c0ea4b7924ca469750
-size 13053643

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa69d5d5f89ce23f9d6b71b738413f9206b416237feabf7585aeab96db924124
+size 13053963

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:575512e9c00b18ee70c366f67b2b0f002290285083714312b8bf78b36aeea0c5
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:289f39013137940cf1ee5449b041384da04bc9bb685618953fd31d6c772eea95
 size 16389

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:870871eb5e1c3f4436d61b35649980a174de89fb8ad9788f2d73e82294209354
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:989bd77ff2885f40e3c715332e40e1c540ff701d6b100ef8efad9627d7d3c776
 size 16389

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ff12f33aef0e4cfef98b601f4c6d3d0beb4abced43c5f557c11bc4ce3ddf53
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:377f1d7a96c328bb457e236cce32a38315a6883ea0ab33abae7d9374afeb92c7
 size 16389

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fbf244dea2f57f580c016311c28847fdf6a8d0d8af08ed4d78d75d102da168c
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:0739a97c2722739882afaf6b544115b335b7f2dc177e7fce8c522b3da6991521
 size 16389

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99908a68d404fdefbbfa797eb2f5eb9f75a3a37d1b8fdab17f87efbde6f4ce4f
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e3fea8223898c73ab613293e12de1974fe1688bc3594682f3c0aa0de08b3c6
 size 16389

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52f189356a4e5d077c8438dd9c08ba1a692ac0e78f07054f726870cec5093c7e
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:968b0e878dc8c9dab1af28d2a5a3c5c25fb01d09bbb5d144524ae269d784486a
 size 16389

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:211015dbfc9200331d3401fde9ae901b6bd709c00b3c545bad1187ac833c5739
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:b79c15f80530d12a2c7921202ae7531199c99ba76f622702271dce29c3ab78c7
 size 16389

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:730c163411d01a0423c98cd2284d621aa5f8be1b009f2a5fcf413bdbd89e32c4
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:925732ed115662d23fac8942143e41da75815df4736560086168dcda367dc0c5
 size 16389

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87ebe31a6312a81e5b51b292be97bf6be0c0e133978c540813601a19980f8814
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fbc8305b7ca0c6d67c3d651c7ca33470c406cdfe738d0a9715f708a4a927f87
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.6666666666666665,
   "eval_steps": 100,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -255,6 +255,124 @@
       "loss": 0.4785,
       "rewards/rejected": 0.5283474445343017,
       "step": 200
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.4785,
       "rewards/rejected": 0.5283474445343017,
       "step": 200
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 59.25,
+      "kl": 1.2280102968215942,
+      "learning_rate": 7.213333333333334e-07,
+      "logits/rejected": 1761185177.6,
+      "logps/rejected": -1594.97919921875,
+      "loss": 0.4105,
+      "rewards/rejected": -0.23803796768188476,
+      "step": 210
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "grad_norm": 70.5,
+      "kl": 0.0,
+      "learning_rate": 7.079999999999999e-07,
+      "logits/rejected": 1738660864.0,
+      "logps/rejected": -1625.093359375,
+      "loss": 0.2885,
+      "rewards/rejected": -1.2162075996398927,
+      "step": 220
+    },
+    {
+      "epoch": 3.066666666666667,
+      "grad_norm": 75.5,
+      "kl": 14.01048469543457,
+      "learning_rate": 6.946666666666666e-07,
+      "logits/chosen": 1750113075.2,
+      "logits/rejected": 1743708160.0,
+      "logps/chosen": -1658.2826171875,
+      "logps/rejected": -1375.04150390625,
+      "loss": 0.3769,
+      "rewards/chosen": 2.9034093856811523,
+      "rewards/margins": 4.364873313903809,
+      "rewards/rejected": -1.4614639282226562,
+      "step": 230
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 63.0,
+      "kl": 37.20917510986328,
+      "learning_rate": 6.813333333333333e-07,
+      "logits/chosen": 1746606899.2,
+      "logps/chosen": -1536.5771484375,
+      "loss": 0.4982,
+      "rewards/chosen": 3.75426025390625,
+      "step": 240
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 54.5,
+      "kl": 43.48841094970703,
+      "learning_rate": 6.68e-07,
+      "logits/chosen": 1757109657.6,
+      "logps/chosen": -1617.16201171875,
+      "loss": 0.5003,
+      "rewards/chosen": 4.342501831054688,
+      "step": 250
+    },
+    {
+      "epoch": 3.466666666666667,
+      "grad_norm": 52.5,
+      "kl": 51.4334716796875,
+      "learning_rate": 6.546666666666665e-07,
+      "logits/chosen": 1780435148.8,
+      "logps/chosen": -1622.2716796875,
+      "loss": 0.4796,
+      "rewards/chosen": 5.217120742797851,
+      "step": 260
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 67.5,
+      "kl": 19.67037582397461,
+      "learning_rate": 6.413333333333333e-07,
+      "logits/chosen": 1755938050.3925233,
+      "logits/rejected": 1727550343.8122065,
+      "logps/chosen": -1448.7593457943926,
+      "logps/rejected": -1504.9633215962442,
+      "loss": 0.4334,
+      "rewards/chosen": 5.442524277161215,
+      "rewards/margins": 5.293697337761961,
+      "rewards/rejected": 0.1488269393992536,
+      "step": 270
+    },
+    {
+      "epoch": 3.7333333333333334,
+      "grad_norm": 51.75,
+      "kl": 0.6852197647094727,
+      "learning_rate": 6.28e-07,
+      "logits/rejected": 1722981785.6,
+      "logps/rejected": -1600.43251953125,
+      "loss": 0.3926,
+      "rewards/rejected": -0.49457273483276365,
+      "step": 280
+    },
+    {
+      "epoch": 3.8666666666666667,
+      "grad_norm": 49.0,
+      "kl": 0.2839541435241699,
+      "learning_rate": 6.146666666666667e-07,
+      "logits/rejected": 1752589516.8,
+      "logps/rejected": -1619.22822265625,
+      "loss": 0.2889,
+      "rewards/rejected": -1.1866175651550293,
+      "step": 290
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 37.0,
+      "kl": 0.0,
+      "learning_rate": 6.013333333333334e-07,
+      "logits/rejected": 1728595353.6,
+      "logps/rejected": -1498.5271484375,
+      "loss": 0.2549,
+      "rewards/rejected": -1.526987361907959,
+      "step": 300
     }
   ],
   "logging_steps": 10,