Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43ae9755626e2950d8c06fdf1d60414796248dfc072fc65db072fe182e1cf597
 size 1912664024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b35aacbfdc92cae95f4722e8ccfc67a4f68647ffa65ea431590ce58096dec808
 size 1912664024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f97b6951acc478b8072c3a2f936c84025fc1e144d1addcc1796e7e406ff11a9
 size 958697812

 version https://git-lfs.github.com/spec/v1
+oid sha256:49e207697dc3ec720bb6feb8f8eae1a74a911ee9fb54850c4480006eaa332e55
 size 958697812

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d9b92fa45e44153a07435b55d5d3d71bf302bfd9a3b3f027d29977fda525192
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:01d248dd4a61bc85f685999c311d599535fb345e57d98e4ccefd0735e695f9bd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:520ffe1792334414c9404c774e2e9174a1306a63c3f66ae705923c2d8b0a934b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cc36f0303920d64d6d5947100d6f9f34e124ede65e136b78d6101e85e913cf9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03374440149702436,
   "eval_steps": 20,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -412,6 +412,51 @@
       "eval_samples_per_second": 4.246,
       "eval_steps_per_second": 0.552,
       "step": 540
     }
   ],
   "logging_steps": 20,
@@ -419,7 +464,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 3.97156971856896e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03681207436039021,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.246,
       "eval_steps_per_second": 0.552,
       "step": 540
+    },
+    {
+      "epoch": 0.034357936069697524,
+      "grad_norm": 0.1211417093873024,
+      "learning_rate": 0.0001931876764453173,
+      "loss": 1.5879,
+      "step": 560
+    },
+    {
+      "epoch": 0.034357936069697524,
+      "eval_loss": 1.4466437101364136,
+      "eval_runtime": 23.8508,
+      "eval_samples_per_second": 4.193,
+      "eval_steps_per_second": 0.545,
+      "step": 560
+    },
+    {
+      "epoch": 0.03558500521504387,
+      "grad_norm": 0.14397528767585754,
+      "learning_rate": 0.00019294218730821162,
+      "loss": 1.5352,
+      "step": 580
+    },
+    {
+      "epoch": 0.03558500521504387,
+      "eval_loss": 1.4339115619659424,
+      "eval_runtime": 23.649,
+      "eval_samples_per_second": 4.229,
+      "eval_steps_per_second": 0.55,
+      "step": 580
+    },
+    {
+      "epoch": 0.03681207436039021,
+      "grad_norm": 0.12468410283327103,
+      "learning_rate": 0.00019269669817110593,
+      "loss": 1.5045,
+      "step": 600
+    },
+    {
+      "epoch": 0.03681207436039021,
+      "eval_loss": 1.4277862310409546,
+      "eval_runtime": 23.647,
+      "eval_samples_per_second": 4.229,
+      "eval_steps_per_second": 0.55,
+      "step": 600
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 4.3772694621696e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null