Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +150 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d4578ea45525b754cb730822b4b5e19895f177b38e0a8204f0f0d2d34a3d2c2
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:35820b18cb2d1840f01298abaa2a6ee2d1da18435d42aa5d26681751a1378e1c
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c252f56184e8af807bdd63c3b61b4ad344e01d2c51768cbb39510437a12c6e36
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:50e724a055f269185a0e46082ca9a545eaf1f95d0e10536516c1a0c1dc261b97
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:037d13720220086c05f76f1146cd4356e8b9d075b5d306338df00d366045e1c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76c4c2dca19bfb0a463693a0e409b44510488650d816e566bccd2a2851e9524
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4c00d522bdde510099aafe1617b13d114dce17a17b44e05876f016f4e4d7af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0b9a1e2fa3da24e9af8b74787d70ff4c95d9bc9b74eeab135df0350a00b462
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7313653230667114,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 13.043478260869565,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -297,6 +297,151 @@
       "eval_samples_per_second": 24.847,
       "eval_steps_per_second": 24.847,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -316,7 +461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7724643094462464.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7164942026138306,
+  "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 19.565217391304348,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.847,
       "eval_steps_per_second": 24.847,
       "step": 300
+    },
+    {
+      "epoch": 13.478260869565217,
+      "grad_norm": 1.7789413928985596,
+      "learning_rate": 2.9998689031728636e-05,
+      "loss": 0.5145,
+      "step": 310
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 1.532348394393921,
+      "learning_rate": 2.9998561206933938e-05,
+      "loss": 0.6494,
+      "step": 320
+    },
+    {
+      "epoch": 14.347826086956522,
+      "grad_norm": 1.4854978322982788,
+      "learning_rate": 2.9998427437188786e-05,
+      "loss": 0.5741,
+      "step": 330
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 1.3134292364120483,
+      "learning_rate": 2.99982877225462e-05,
+      "loss": 0.6014,
+      "step": 340
+    },
+    {
+      "epoch": 15.217391304347826,
+      "grad_norm": 0.9749585390090942,
+      "learning_rate": 2.9998142063061564e-05,
+      "loss": 0.4988,
+      "step": 350
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 1.6409484148025513,
+      "learning_rate": 2.9997990458792603e-05,
+      "loss": 0.5625,
+      "step": 360
+    },
+    {
+      "epoch": 16.08695652173913,
+      "grad_norm": 1.6361374855041504,
+      "learning_rate": 2.9997832909799417e-05,
+      "loss": 0.6672,
+      "step": 370
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.9572365880012512,
+      "learning_rate": 2.9997669416144452e-05,
+      "loss": 0.5129,
+      "step": 380
+    },
+    {
+      "epoch": 16.956521739130434,
+      "grad_norm": 0.9357342720031738,
+      "learning_rate": 2.999749997789251e-05,
+      "loss": 0.5798,
+      "step": 390
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 1.1117758750915527,
+      "learning_rate": 2.9997324595110743e-05,
+      "loss": 0.5179,
+      "step": 400
+    },
+    {
+      "epoch": 17.82608695652174,
+      "grad_norm": 1.2845892906188965,
+      "learning_rate": 2.9997143267868683e-05,
+      "loss": 0.5874,
+      "step": 410
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 1.1638511419296265,
+      "learning_rate": 2.9996955996238192e-05,
+      "loss": 0.506,
+      "step": 420
+    },
+    {
+      "epoch": 18.695652173913043,
+      "grad_norm": 1.2020405530929565,
+      "learning_rate": 2.9996762780293503e-05,
+      "loss": 0.5316,
+      "step": 430
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 1.2133735418319702,
+      "learning_rate": 2.9996563620111197e-05,
+      "loss": 0.5338,
+      "step": 440
+    },
+    {
+      "epoch": 19.565217391304348,
+      "grad_norm": 1.4260774850845337,
+      "learning_rate": 2.9996358515770218e-05,
+      "loss": 0.5681,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7164942026138306,
+      "eval_runtime": 0.4121,
+      "eval_samples_per_second": 24.267,
+      "eval_steps_per_second": 24.267,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8609360456466675,
+      "eval_runtime": 0.4438,
+      "eval_samples_per_second": 22.531,
+      "eval_steps_per_second": 22.531,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7164942026138306,
+      "eval_runtime": 0.4426,
+      "eval_samples_per_second": 22.593,
+      "eval_steps_per_second": 22.593,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7564777731895447,
+      "eval_runtime": 0.4418,
+      "eval_samples_per_second": 22.634,
+      "eval_steps_per_second": 22.634,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.8607853055000305,
+      "eval_runtime": 0.4381,
+      "eval_samples_per_second": 22.828,
+      "eval_steps_per_second": 22.828,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1591800814075904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null