Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +57 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ca19d4a9c3a66cc062755613586eb9666cc8033031890aa61853fd9c4cf2041
 size 497780352

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d72f3fef16d48722b8147d42ef2f19f1c00f6d54bd6e1decd4a87224211203f
 size 497780352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfda32c2df088cee5c680d79751e871a539eaf0989bb84c9f148a0e06f01717c
 size 995654586

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e50964ec2dd79bebad7dd56891d11c03b94cfd39ab6848d9646ef913c456d0a
 size 995654586

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1be58c6095331490031ab4484c5ffe4bf36bc8c2ec9130e8e665c8f156e2c90
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5189a6d57ea7f8ba0ac9eec6cad8707c6e4c886fe1a371a733497024fcbb01ba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ac32590bb4b92b786de3b7715c46f1c43487e1605b133d8603403d8e65638b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04c72869181363c7c0dcffb7a71857fd6a7c81a93e70aff2985fc26363295969
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.0,
   "eval_steps": 200,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -493,6 +493,60 @@
       "eval_samples_per_second": 422.467,
       "eval_steps_per_second": 6.601,
       "step": 9000
     }
   ],
   "logging_steps": 500,
@@ -500,7 +554,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
-  "total_flos": 3.7626052608e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 200,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 422.467,
       "eval_steps_per_second": 6.601,
       "step": 9000
+    },
+    {
+      "epoch": 9.2,
+      "eval_loss": 0.02422364056110382,
+      "eval_runtime": 37.7417,
+      "eval_samples_per_second": 423.934,
+      "eval_steps_per_second": 6.624,
+      "step": 9200
+    },
+    {
+      "epoch": 9.4,
+      "eval_loss": 0.024163929745554924,
+      "eval_runtime": 37.7865,
+      "eval_samples_per_second": 423.432,
+      "eval_steps_per_second": 6.616,
+      "step": 9400
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.10827407240867615,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0247,
+      "step": 9500
+    },
+    {
+      "epoch": 9.6,
+      "eval_loss": 0.024232398718595505,
+      "eval_runtime": 37.8161,
+      "eval_samples_per_second": 423.1,
+      "eval_steps_per_second": 6.611,
+      "step": 9600
+    },
+    {
+      "epoch": 9.8,
+      "eval_loss": 0.02414529025554657,
+      "eval_runtime": 37.6993,
+      "eval_samples_per_second": 424.411,
+      "eval_steps_per_second": 6.631,
+      "step": 9800
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.13070951402187347,
+      "learning_rate": 0.0,
+      "loss": 0.0245,
+      "step": 10000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.024126721546053886,
+      "eval_runtime": 37.7053,
+      "eval_samples_per_second": 424.344,
+      "eval_steps_per_second": 6.63,
+      "step": 10000
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
+  "total_flos": 4.180672512e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null