Training in progress, step 700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8887655314c6a7fc55cd02e4ec047c0048e2272c7fd352777bb7dacb970f435
 size 3826461296

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e9c89c5afa1545ed2abce6fb61b801899049ea15f9cad45a8a50d3ec0f9d3c1
 size 3826461296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4544c40f9c86f284c54a215c2c1aec6b854bdd8ff99351fe18c83fabae909708
 size 2479955235

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b0b1b8a92e051537f0d9657a16e5d51d9f5dddc753f3ecef5357cb38fad4fca
 size 2479955235

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e35963fbe17703d43e57c264c8bf401c049828d6ea5abe6c269f936eebec007
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:d166d430557d2569c721c8dec1c8ddf3bfe3fec272b03dceb3e3268be418ae2c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dacf7348dc62d0b10f0ec94c4cde6e6d272f324c59483c8d9d8548880fb6b96
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:55fdec1914c1bee37a4826392246117bd3062dd019b2d4c1b1f435e39b62b9ce
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -428,6 +428,76 @@
       "learning_rate": 3.826366559485531e-05,
       "loss": 0.9308,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -447,7 +517,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.081989562033152e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.28,
   "eval_steps": 500,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.826366559485531e-05,
       "loss": 0.9308,
       "step": 600
+    },
+    {
+      "epoch": 0.244,
+      "grad_norm": 20.76468849182129,
+      "learning_rate": 3.806270096463023e-05,
+      "loss": 0.8735,
+      "step": 610
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 26.41815757751465,
+      "learning_rate": 3.786173633440515e-05,
+      "loss": 1.2878,
+      "step": 620
+    },
+    {
+      "epoch": 0.252,
+      "grad_norm": 41.02421951293945,
+      "learning_rate": 3.7660771704180066e-05,
+      "loss": 1.1299,
+      "step": 630
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 17.34744644165039,
+      "learning_rate": 3.7459807073954985e-05,
+      "loss": 0.8315,
+      "step": 640
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 14.293941497802734,
+      "learning_rate": 3.725884244372991e-05,
+      "loss": 0.8405,
+      "step": 650
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 15.149956703186035,
+      "learning_rate": 3.705787781350483e-05,
+      "loss": 1.0297,
+      "step": 660
+    },
+    {
+      "epoch": 0.268,
+      "grad_norm": 17.754810333251953,
+      "learning_rate": 3.685691318327975e-05,
+      "loss": 0.9322,
+      "step": 670
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 21.743669509887695,
+      "learning_rate": 3.6655948553054666e-05,
+      "loss": 0.9069,
+      "step": 680
+    },
+    {
+      "epoch": 0.276,
+      "grad_norm": 29.161598205566406,
+      "learning_rate": 3.6454983922829585e-05,
+      "loss": 0.8633,
+      "step": 690
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 16.16539192199707,
+      "learning_rate": 3.6254019292604503e-05,
+      "loss": 0.7662,
+      "step": 700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2633123965792256e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null