Training in progress, step 8500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14e55e875213d92682e84555aa6b33ea2bd487aa3e64808e8e018ff13e39def4
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:301efe15fcd22f178a59817e7ac95437175ae1902e5f8351d10927e9d460d888
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f06185fe3645dcc7fe9ce829eede891f7480be5faf7d32fbc087ca425886173
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:da312327cdcf8ee87d3ec3f29034a334cec0891a627a2192c1ab49ddbc3560d9
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:089eaed71453cd0e3401835315e75796803c6c4fdbddff74a2269b34ba454a8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fe1606aea4247336928fb0ca7460d9c32bfd4a5f09cd12bbfa040c328a1e6f1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c911fb82d73d273c8bd13fe16df7396949ad9b406bf6a976c6d2d8dce418f3d4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f1cf6f72829f199e2c33545d808f1bb98dc287a37068472d85b2db721614981
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08401757478713989,
   "best_model_checkpoint": "./fine-tuned/checkpoint-8000",
-  "epoch": 0.64,
   "eval_steps": 500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1255,6 +1255,84 @@
       "eval_samples_per_second": 22.707,
       "eval_steps_per_second": 5.677,
       "step": 8000
     }
   ],
   "logging_steps": 50,
@@ -1274,7 +1352,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.948665249792e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08401757478713989,
   "best_model_checkpoint": "./fine-tuned/checkpoint-8000",
+  "epoch": 0.68,
   "eval_steps": 500,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.707,
       "eval_steps_per_second": 5.677,
       "step": 8000
+    },
+    {
+      "epoch": 0.644,
+      "grad_norm": 0.09193145483732224,
+      "learning_rate": 2.03424e-05,
+      "loss": 0.0592,
+      "step": 8050
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 0.13023436069488525,
+      "learning_rate": 2.02824e-05,
+      "loss": 0.0627,
+      "step": 8100
+    },
+    {
+      "epoch": 0.652,
+      "grad_norm": 0.12572939693927765,
+      "learning_rate": 2.02224e-05,
+      "loss": 0.0696,
+      "step": 8150
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 0.08949209004640579,
+      "learning_rate": 2.0162400000000002e-05,
+      "loss": 0.0633,
+      "step": 8200
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.18614652752876282,
+      "learning_rate": 2.01024e-05,
+      "loss": 0.0683,
+      "step": 8250
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 0.1969350129365921,
+      "learning_rate": 2.00424e-05,
+      "loss": 0.0629,
+      "step": 8300
+    },
+    {
+      "epoch": 0.668,
+      "grad_norm": 0.18870118260383606,
+      "learning_rate": 1.99824e-05,
+      "loss": 0.0697,
+      "step": 8350
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.13722488284111023,
+      "learning_rate": 1.99224e-05,
+      "loss": 0.0654,
+      "step": 8400
+    },
+    {
+      "epoch": 0.676,
+      "grad_norm": 0.12897425889968872,
+      "learning_rate": 1.98624e-05,
+      "loss": 0.0632,
+      "step": 8450
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.16306981444358826,
+      "learning_rate": 1.9802400000000002e-05,
+      "loss": 0.0606,
+      "step": 8500
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.08417751640081406,
+      "eval_runtime": 88.0586,
+      "eval_samples_per_second": 22.712,
+      "eval_steps_per_second": 5.678,
+      "step": 8500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.070456827904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null