Training in progress, step 9000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +57 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa57558f82a576e3b94f619c220c003782fbe5c1533390c8a365306af6e14297
 size 497780352

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ca19d4a9c3a66cc062755613586eb9666cc8033031890aa61853fd9c4cf2041
 size 497780352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74c617b957b1b0066ed0cce4639b6fb3a6abb26677afc855950df159d4a6291f
 size 995654586

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfda32c2df088cee5c680d79751e871a539eaf0989bb84c9f148a0e06f01717c
 size 995654586

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da7a55020780f531c20dc8877ede6e098965b594b1e88a01dc9f722d9dee4ac7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1be58c6095331490031ab4484c5ffe4bf36bc8c2ec9130e8e665c8f156e2c90
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1f8795cd71b0ad726fc421a5a3758672326d602a89558c9fec480df511fbfa0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ac32590bb4b92b786de3b7715c46f1c43487e1605b133d8603403d8e65638b0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 200,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -439,6 +439,60 @@
       "eval_samples_per_second": 421.963,
       "eval_steps_per_second": 6.593,
       "step": 8000
     }
   ],
   "logging_steps": 500,
@@ -446,7 +500,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
-  "total_flos": 3.3445380096e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.0,
   "eval_steps": 200,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 421.963,
       "eval_steps_per_second": 6.593,
       "step": 8000
+    },
+    {
+      "epoch": 8.2,
+      "eval_loss": 0.02438100427389145,
+      "eval_runtime": 37.7187,
+      "eval_samples_per_second": 424.193,
+      "eval_steps_per_second": 6.628,
+      "step": 8200
+    },
+    {
+      "epoch": 8.4,
+      "eval_loss": 0.02455132268369198,
+      "eval_runtime": 37.679,
+      "eval_samples_per_second": 424.64,
+      "eval_steps_per_second": 6.635,
+      "step": 8400
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.09001246094703674,
+      "learning_rate": 7.5e-06,
+      "loss": 0.0252,
+      "step": 8500
+    },
+    {
+      "epoch": 8.6,
+      "eval_loss": 0.024252494797110558,
+      "eval_runtime": 37.731,
+      "eval_samples_per_second": 424.054,
+      "eval_steps_per_second": 6.626,
+      "step": 8600
+    },
+    {
+      "epoch": 8.8,
+      "eval_loss": 0.02421058714389801,
+      "eval_runtime": 37.6831,
+      "eval_samples_per_second": 424.593,
+      "eval_steps_per_second": 6.634,
+      "step": 8800
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.07999344915151596,
+      "learning_rate": 5e-06,
+      "loss": 0.0244,
+      "step": 9000
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.024233995005488396,
+      "eval_runtime": 37.8728,
+      "eval_samples_per_second": 422.467,
+      "eval_steps_per_second": 6.601,
+      "step": 9000
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
+  "total_flos": 3.7626052608e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null