Training in progress, step 950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +38 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b84ee20fdeed3b9de615bfb8c89a604ad31460bf4be8d9981259bc49daba7689
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0cdab5afe89842ddf5f951fefb2a7cbceecc5e593787e5da35a587fa2f1fc19
 size 479005064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:568ebac81b184bad78bc6124292e26514957855d6547ab1ff84685977fe672bd
 size 958299770

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aefb33efb95cb0cda912996733876b57741f474e96d089d56f4d5c60b686c3d
 size 958299770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bac1fa9dca95bae4349472079f496cd88fa65635d594e791ca9b0c9c4124f64
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3343f12ec5e83ccbe5792e5a25a22293eb382ff3f3b0b26a3d274d79100cbe82
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:078bc51854d278434d7ff9f22a495ff6f5ffaa9f8a1b36cbdab8eec0ef4607eb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:039c08ad2d08bc621e50ca4bc0d72f4e62aa003991d9f191336efa92cd4bd720
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.007366937185909637,
   "eval_steps": 500,
-  "global_step": 925,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1111,6 +1111,42 @@
       "reward_std": 0.25242582634091376,
       "rewards/custom_reward_simplified_v7_dblog": 0.74375,
       "step": 920
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.007566043596339628,
   "eval_steps": 500,
+  "global_step": 950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "reward_std": 0.25242582634091376,
       "rewards/custom_reward_simplified_v7_dblog": 0.74375,
       "step": 920
+    },
+    {
+      "completion_length": 640.1875,
+      "epoch": 0.0074067584679956356,
+      "grad_norm": 0.22241215407848358,
+      "kl": 0.006700195767916739,
+      "learning_rate": 3.8432490208670605e-06,
+      "loss": 0.0003,
+      "reward": 0.753125,
+      "reward_std": 0.30004683434963225,
+      "rewards/custom_reward_simplified_v7_dblog": 0.753125,
+      "step": 930
+    },
+    {
+      "completion_length": 671.025,
+      "epoch": 0.007486401032167632,
+      "grad_norm": 0.2610742747783661,
+      "kl": 0.007203501905314625,
+      "learning_rate": 3.8124414508364005e-06,
+      "loss": 0.0003,
+      "reward": 0.696875,
+      "reward_std": 0.2809624969959259,
+      "rewards/custom_reward_simplified_v7_dblog": 0.696875,
+      "step": 940
+    },
+    {
+      "completion_length": 644.56875,
+      "epoch": 0.007566043596339628,
+      "grad_norm": 0.18431080877780914,
+      "kl": 0.006376700336113572,
+      "learning_rate": 3.7813562519996633e-06,
+      "loss": 0.0003,
+      "reward": 0.775,
+      "reward_std": 0.2690692335367203,
+      "rewards/custom_reward_simplified_v7_dblog": 0.775,
+      "step": 950
     }
   ],
   "logging_steps": 10,