Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +150 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:654d984e34734272ec7a818966144d6d6535beb5b714abff1c72319e45234726
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ec2673b7ed27fb69ad96241bab728428b1bef12d399bb3f46a06da7f0da0ec9
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2887218cb09900466a9452eeecbeecb61780000b1fbe69f04d5253771c916ac6
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:0654a3762b3e1bf30b2c72f526af9c46661bf182e89d1f3eb32221c06275d32c
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:037d13720220086c05f76f1146cd4356e8b9d075b5d306338df00d366045e1c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76c4c2dca19bfb0a463693a0e409b44510488650d816e566bccd2a2851e9524
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4c00d522bdde510099aafe1617b13d114dce17a17b44e05876f016f4e4d7af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0b9a1e2fa3da24e9af8b74787d70ff4c95d9bc9b74eeab135df0350a00b462
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7308415770530701,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 13.043478260869565,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -297,6 +297,151 @@
       "eval_samples_per_second": 18.756,
       "eval_steps_per_second": 18.756,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -316,7 +461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7724643094462464.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7167752981185913,
+  "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 19.565217391304348,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.756,
       "eval_steps_per_second": 18.756,
       "step": 300
+    },
+    {
+      "epoch": 13.478260869565217,
+      "grad_norm": 1.779449224472046,
+      "learning_rate": 2.9998689031728636e-05,
+      "loss": 0.5144,
+      "step": 310
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 1.5321470499038696,
+      "learning_rate": 2.9998561206933938e-05,
+      "loss": 0.6497,
+      "step": 320
+    },
+    {
+      "epoch": 14.347826086956522,
+      "grad_norm": 1.4785079956054688,
+      "learning_rate": 2.9998427437188786e-05,
+      "loss": 0.5745,
+      "step": 330
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 1.3100569248199463,
+      "learning_rate": 2.99982877225462e-05,
+      "loss": 0.6013,
+      "step": 340
+    },
+    {
+      "epoch": 15.217391304347826,
+      "grad_norm": 0.9780473709106445,
+      "learning_rate": 2.9998142063061564e-05,
+      "loss": 0.4987,
+      "step": 350
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 1.6418719291687012,
+      "learning_rate": 2.9997990458792603e-05,
+      "loss": 0.5628,
+      "step": 360
+    },
+    {
+      "epoch": 16.08695652173913,
+      "grad_norm": 1.6354929208755493,
+      "learning_rate": 2.9997832909799417e-05,
+      "loss": 0.6671,
+      "step": 370
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.9526194930076599,
+      "learning_rate": 2.9997669416144452e-05,
+      "loss": 0.513,
+      "step": 380
+    },
+    {
+      "epoch": 16.956521739130434,
+      "grad_norm": 0.9340882897377014,
+      "learning_rate": 2.999749997789251e-05,
+      "loss": 0.5795,
+      "step": 390
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 1.1163101196289062,
+      "learning_rate": 2.9997324595110743e-05,
+      "loss": 0.518,
+      "step": 400
+    },
+    {
+      "epoch": 17.82608695652174,
+      "grad_norm": 1.2847086191177368,
+      "learning_rate": 2.9997143267868683e-05,
+      "loss": 0.5882,
+      "step": 410
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 1.1625791788101196,
+      "learning_rate": 2.9996955996238192e-05,
+      "loss": 0.5061,
+      "step": 420
+    },
+    {
+      "epoch": 18.695652173913043,
+      "grad_norm": 1.2001575231552124,
+      "learning_rate": 2.9996762780293503e-05,
+      "loss": 0.5314,
+      "step": 430
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 1.2133065462112427,
+      "learning_rate": 2.9996563620111197e-05,
+      "loss": 0.5337,
+      "step": 440
+    },
+    {
+      "epoch": 19.565217391304348,
+      "grad_norm": 1.4226895570755005,
+      "learning_rate": 2.9996358515770218e-05,
+      "loss": 0.5677,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7167752981185913,
+      "eval_runtime": 0.5068,
+      "eval_samples_per_second": 19.73,
+      "eval_steps_per_second": 19.73,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8609212040901184,
+      "eval_runtime": 0.4062,
+      "eval_samples_per_second": 24.616,
+      "eval_steps_per_second": 24.616,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7167752981185913,
+      "eval_runtime": 0.4329,
+      "eval_samples_per_second": 23.098,
+      "eval_steps_per_second": 23.098,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7563869953155518,
+      "eval_runtime": 0.3953,
+      "eval_samples_per_second": 25.297,
+      "eval_steps_per_second": 25.297,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8611674308776855,
+      "eval_runtime": 0.3948,
+      "eval_samples_per_second": 25.331,
+      "eval_steps_per_second": 25.331,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1591800814075904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null