Training in progress, step 4000, checkpoint

Files changed (6) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d7421efb0f77cd2ad05e257eaaa7cf70bc46b98f46b55a33fcb605105540605
 size 1340623936

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbbc7c632d4d6f6dc374492bd1211cba1a35d6ffeddbfb05e32ba3a1a59c6c92
 size 1340623936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97cd9487290e93a4cf8df97c810828fa6608cfd8679b75d5176a1b829226af00
 size 2681480830

 version https://git-lfs.github.com/spec/v1
+oid sha256:f074e1f4dcfde9a10a17643892cc0dffb9ce7d3df88081d2f01e5283c4103d1d
 size 2681480830

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e484b91022d49823d8d81e38c9d2aecc8d11dd67a5a779bad4167814a1359c3d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:713fbe99f9819d314ca7c04ce5f81ee51364f89ca336ef4d1337ed0aadfb47e5
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac1c46a2776d12775d23d0f587efc112188137ce2140da35bc15d301c9f620e
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d3f655ea9c5a4a9f86c577483cce348f86f4499f93b7851c6926bdee4b92c1f
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:44bf4923ec42942364989fd2f30726b763bdfd466c393a6e0a85d3fa348231ab
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 2000,
   "best_metric": 0.07912886142730713,
   "best_model_checkpoint": "./training_output/checkpoint-2000",
-  "epoch": 0.375,
   "eval_steps": 1000,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -77,6 +77,29 @@
       "eval_samples_per_second": 15.203,
       "eval_steps_per_second": 0.95,
       "step": 3000
     }
   ],
   "logging_steps": 500,
@@ -96,7 +119,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1183176359936e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 2000,
   "best_metric": 0.07912886142730713,
   "best_model_checkpoint": "./training_output/checkpoint-2000",
+  "epoch": 0.5,
   "eval_steps": 1000,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.203,
       "eval_steps_per_second": 0.95,
       "step": 3000
+    },
+    {
+      "epoch": 0.4375,
+      "grad_norm": 10.261446952819824,
+      "learning_rate": 1.1252500000000001e-05,
+      "loss": 0.0581,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 6.691280364990234,
+      "learning_rate": 1.0002500000000001e-05,
+      "loss": 0.1161,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.350625,
+      "eval_loss": 0.22534234821796417,
+      "eval_runtime": 518.3611,
+      "eval_samples_per_second": 15.433,
+      "eval_steps_per_second": 0.965,
+      "step": 4000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.4910901813248e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null