Training in progress, step 1850, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +38 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce0227de8dffd60e7bcbc361e28f5f14d86f6b8aa6b9faaa25078af2c1664371
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5394825a795e8c2ec586e2ccde14f9f1732bd83cb73a2e054c0fd16cab24bbf
 size 479005064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b50241b912450499aa67b6f47d8ef5d57cc918130f305986edc730a6c70d0be
 size 958299770

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3baa6fc86afbc2ac24ca4ccb3c82a2a206a33c1941bd40fbf22e526547f85bc
 size 958299770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdc279ccf06d94b21f0f1142b3ba0467a4b037c890e7d4c8b4d0d9959c7a643b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bffd2e290b62c75abc87ca6dd76b6027bd06ea1ad6cc5c7d19bce5cce9b4ccc3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e18d4bd19d02103826c6ccfe1e046ad882c768a3c57be1799d9b12107011c97
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66c13a1a0518ee90714d59f79891d6fed6babf24ee82c1c888d7fca0cfbcc3ac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.014534767961389285,
   "eval_steps": 500,
-  "global_step": 1825,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2191,6 +2191,42 @@
       "reward_std": 0.3459245666861534,
       "rewards/custom_reward_simplified_v7_dblog": 0.925,
       "step": 1820
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.014733874371819274,
   "eval_steps": 500,
+  "global_step": 1850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "reward_std": 0.3459245666861534,
       "rewards/custom_reward_simplified_v7_dblog": 0.925,
       "step": 1820
+    },
+    {
+      "completion_length": 708.60625,
+      "epoch": 0.014574589243475282,
+      "grad_norm": 0.00766308419406414,
+      "kl": 0.01772608202882111,
+      "learning_rate": 8.110244809608494e-07,
+      "loss": 0.0007,
+      "reward": 0.73125,
+      "reward_std": 0.2913930006325245,
+      "rewards/custom_reward_simplified_v7_dblog": 0.73125,
+      "step": 1830
+    },
+    {
+      "completion_length": 660.0375,
+      "epoch": 0.014654231807647279,
+      "grad_norm": 0.20974037051200867,
+      "kl": 0.014227323909290135,
+      "learning_rate": 7.843959053281663e-07,
+      "loss": 0.0006,
+      "reward": 0.809375,
+      "reward_std": 0.24926668480038644,
+      "rewards/custom_reward_simplified_v7_dblog": 0.809375,
+      "step": 1840
+    },
+    {
+      "completion_length": 729.71875,
+      "epoch": 0.014733874371819274,
+      "grad_norm": 0.24099427461624146,
+      "kl": 0.018935651518404484,
+      "learning_rate": 7.581302419733633e-07,
+      "loss": 0.0008,
+      "reward": 0.690625,
+      "reward_std": 0.32810748890042307,
+      "rewards/custom_reward_simplified_v7_dblog": 0.690625,
+      "step": 1850
     }
   ],
   "logging_steps": 10,