Training in progress, step 600, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +120 -2

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4570838371cb46cb81aa6e4e93e439795cf68c0acdb027e6d242243ef305391
 size 4962001760

 version https://git-lfs.github.com/spec/v1
+oid sha256:87c243598c92aa172639ff6e40dd1b983ce2b906a69338a7f68bb077d0b49af2
 size 4962001760

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d816528d00db7afcf13755816f471a57e2401601af1e498b925651fb1ee7141
 size 4915916160

 version https://git-lfs.github.com/spec/v1
+oid sha256:97de6841f7a06df63f15116413b63a6d8f0ed1481c73daec4d308907b9ef7477
 size 4915916160

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e2a7109a89481a14c23ebcca39f764b77662153e1d11566a1997fcbb214fdec
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4df52273384350aee9baa269ceb1e9e573aeaf2a7566f394660f38eefd4989e8
 size 4999819336

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4b9c1b25cb5cc33bd227513645df9037e53f4f31852a7141c5f1585c5401666
 size 1623221024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bff86115c9ca1a90bf6873583c738e398f9f9947c13c68352f73a518f1bd9b44
 size 1623221024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:006f3cb0dd1a2817bf4e23a383a26d52ed1f7f87a0ddb412aec4aae524addbbe
 size 13053963

 version https://git-lfs.github.com/spec/v1
+oid sha256:554d638b6db84406c05520b337e63b464c5dd4ca01d9e36368adbd26b62126ee
 size 13053963

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8b9684a001ced786cf3f8d180da14cc75fa2707f771fb8db8a2f3987616d58a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:6954e89c1960fa7ad6ea4d0b8bbf7ab04896fa485702dacc91479549c4c5f5bd
 size 16389

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69a7fd708494878bd9a17192c05a815384b2db4098489cd7778c553943417ba7
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:39430be47ab0759ba4c6b2029bf2ac1430c442bd0153447dadb3e88ceeace01f
 size 16389

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f6f6314518ebe461b62a277be61b06e05bed27aea542e4ae2bffb060e73689a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e70cc76576adfb81afd443354dc1068743c58308fe7d889099fbeedaa0a7788
 size 16389

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d6a9499db1eadd54ce72d5506ca43e60264cf1a33ebf777e4ed3931ed1a03b9
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a75d5f02ca237d8ef45529e298315fb70e4bd993cf96fd04ae998cf9895b3c4
 size 16389

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4e82eac1af25e6d36636846ff6b561653dba1263d790f10f82c5fa93bfeb01a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c6680063dc12b212232a97593d0ad4ca30bf709a7f3fc4f37444f622689ee4b
 size 16389

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41aa0f60e2dc0839912ac9319700da038b4ead806802304d22298e9dd3372ae9
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:d575736283b8fd594e1e1fc04ebb33a9123b2d46d9a7f2b36ee599ae2efdf4fa
 size 16389

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3586402bd40d50079663ce2ab2f6725fc21b6aa67d9ba6b8985080086eb3fd05
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac6501ba3ee593e553d24857a1d06a2ae89d416a291843a7f705be771a8677fb
 size 16389

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b3318c70326f3b79256c222c497e48e741ec33cc9f1c47dd67359e1fee68294
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee4b071aa28acd8e61610943b47f7a78b87ce3fa1a3a7004c67f45adf039ffbe
 size 16389

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:504c0ac187a5cb09c6c830e073a49c85f9ed8f4f258d346199b3f76f0521e60a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d09ab206d51e08db07522003a69609e8e727f47b95ea47e6b2b8aa03687721b3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.666666666666667,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -609,6 +609,124 @@
       "loss": 0.265,
       "rewards/rejected": -1.5677401542663574,
       "step": 500
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.265,
       "rewards/rejected": -1.5677401542663574,
       "step": 500
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 39.75,
+      "kl": 0.0,
+      "learning_rate": 3.2133333333333335e-07,
+      "logits/rejected": 1729151795.2,
+      "logps/rejected": -1609.8298828125,
+      "loss": 0.2389,
+      "rewards/rejected": -1.7230974197387696,
+      "step": 510
+    },
+    {
+      "epoch": 6.933333333333334,
+      "grad_norm": 42.0,
+      "kl": 0.0,
+      "learning_rate": 3.08e-07,
+      "logits/rejected": 1712730828.8,
+      "logps/rejected": -1633.16318359375,
+      "loss": 0.2112,
+      "rewards/rejected": -2.023202896118164,
+      "step": 520
+    },
+    {
+      "epoch": 7.066666666666666,
+      "grad_norm": 64.5,
+      "kl": 25.04488754272461,
+      "learning_rate": 2.9466666666666666e-07,
+      "logits/chosen": 1731994419.2,
+      "logits/rejected": 1720656691.2,
+      "logps/chosen": -1637.28173828125,
+      "logps/rejected": -1377.9115234375,
+      "loss": 0.3763,
+      "rewards/chosen": 5.003516006469726,
+      "rewards/margins": 6.7519731521606445,
+      "rewards/rejected": -1.748457145690918,
+      "step": 530
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 56.0,
+      "kl": 52.43037033081055,
+      "learning_rate": 2.813333333333333e-07,
+      "logits/chosen": 1726875648.0,
+      "logps/chosen": -1521.06044921875,
+      "loss": 0.4829,
+      "rewards/chosen": 5.305931854248047,
+      "step": 540
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 50.0,
+      "kl": 51.872047424316406,
+      "learning_rate": 2.68e-07,
+      "logits/chosen": 1734085222.4,
+      "logps/chosen": -1607.64345703125,
+      "loss": 0.4712,
+      "rewards/chosen": 5.294354629516602,
+      "step": 550
+    },
+    {
+      "epoch": 7.466666666666667,
+      "grad_norm": 51.0,
+      "kl": 55.77549362182617,
+      "learning_rate": 2.546666666666666e-07,
+      "logits/chosen": 1753063219.2,
+      "logps/chosen": -1617.415625,
+      "loss": 0.4773,
+      "rewards/chosen": 5.702725982666015,
+      "step": 560
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 43.75,
+      "kl": 18.287708282470703,
+      "learning_rate": 2.413333333333333e-07,
+      "logits/chosen": 1731032073.5700934,
+      "logits/rejected": 1702629587.5305164,
+      "logps/chosen": -1447.9690420560748,
+      "logps/rejected": -1521.8135269953052,
+      "loss": 0.3238,
+      "rewards/chosen": 5.521567086193049,
+      "rewards/margins": 7.057752337348419,
+      "rewards/rejected": -1.5361852511553697,
+      "step": 570
+    },
+    {
+      "epoch": 7.733333333333333,
+      "grad_norm": 41.0,
+      "kl": 0.0,
+      "learning_rate": 2.28e-07,
+      "logits/rejected": 1697045913.6,
+      "logps/rejected": -1615.4837890625,
+      "loss": 0.2158,
+      "rewards/rejected": -1.9997014999389648,
+      "step": 580
+    },
+    {
+      "epoch": 7.866666666666667,
+      "grad_norm": 38.75,
+      "kl": 0.0,
+      "learning_rate": 2.1466666666666666e-07,
+      "logits/rejected": 1732887756.8,
+      "logps/rejected": -1627.6578125,
+      "loss": 0.206,
+      "rewards/rejected": -2.029564094543457,
+      "step": 590
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 43.25,
+      "kl": 0.0,
+      "learning_rate": 2.0133333333333334e-07,
+      "logits/rejected": 1715685171.2,
+      "logps/rejected": -1501.2095703125,
+      "loss": 0.241,
+      "rewards/rejected": -1.795237922668457,
+      "step": 600
     }
   ],
   "logging_steps": 10,