Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66c5e00024edd5bcec41bc96e32dea47f96e5ca6f4a881b83b53b20e52c90ab3
 size 14296248

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0f4443f33a490d7086b6c83e9c5f2f042cc5f89b85b27f1792576f9c851891e
 size 14296248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ae288a582fa711b3a997ed7258a520d75812ac2eb78f992618058a6c69050ea
 size 12217018

 version https://git-lfs.github.com/spec/v1
+oid sha256:755f06a0452f3963c4a04646d29cfb6a2bcde321cff9a6e32cfd4fb34ac6b819
 size 12217018

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0354bda479c5efeb9320f058ef5e47050493b43096f75e95a60396277ab72b09
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd0f8676396de1043a1e0bc955d07a4caa1faf2092e7a0447e1b3388e2ec949f
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:536269e746606d89d7092eefc1d242400387136c0a490c65f4003318a00e54ce
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b104801e8f2977a5280eca927cca74cec17e750775fe40d3bc9414c93058be59
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 6.099384784698486,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.3020007550018875,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 40.001,
       "eval_steps_per_second": 40.001,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8429224635887616.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 6.099269390106201,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.3114382785956965,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 40.001,
       "eval_steps_per_second": 40.001,
       "step": 4800
+    },
+    {
+      "epoch": 0.30262992324147475,
+      "grad_norm": 3.1917672157287598,
+      "learning_rate": 2.964201089733987e-07,
+      "loss": 6.2388,
+      "step": 4810
+    },
+    {
+      "epoch": 0.30325909148106206,
+      "grad_norm": 3.8232038021087646,
+      "learning_rate": 2.66072829537678e-07,
+      "loss": 6.1427,
+      "step": 4820
+    },
+    {
+      "epoch": 0.3038882597206493,
+      "grad_norm": 3.2830233573913574,
+      "learning_rate": 2.3735885622078624e-07,
+      "loss": 6.1096,
+      "step": 4830
+    },
+    {
+      "epoch": 0.30451742796023656,
+      "grad_norm": 3.8017961978912354,
+      "learning_rate": 2.102793693417038e-07,
+      "loss": 6.2028,
+      "step": 4840
+    },
+    {
+      "epoch": 0.3051465961998238,
+      "grad_norm": 3.7506775856018066,
+      "learning_rate": 1.8483548203207081e-07,
+      "loss": 6.2344,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3057757644394111,
+      "grad_norm": 4.402230262756348,
+      "learning_rate": 1.6102824019043728e-07,
+      "loss": 6.2129,
+      "step": 4860
+    },
+    {
+      "epoch": 0.3064049326789984,
+      "grad_norm": 4.019004821777344,
+      "learning_rate": 1.3885862243927072e-07,
+      "loss": 6.1747,
+      "step": 4870
+    },
+    {
+      "epoch": 0.30703410091858563,
+      "grad_norm": 3.7276411056518555,
+      "learning_rate": 1.1832754008472614e-07,
+      "loss": 6.1273,
+      "step": 4880
+    },
+    {
+      "epoch": 0.3076632691581729,
+      "grad_norm": 3.5599303245544434,
+      "learning_rate": 9.943583707917815e-08,
+      "loss": 6.2192,
+      "step": 4890
+    },
+    {
+      "epoch": 0.3082924373977602,
+      "grad_norm": 3.906830072402954,
+      "learning_rate": 8.21842899865466e-08,
+      "loss": 6.2081,
+      "step": 4900
+    },
+    {
+      "epoch": 0.30892160563734744,
+      "grad_norm": 3.1649320125579834,
+      "learning_rate": 6.65736079503665e-08,
+      "loss": 6.2523,
+      "step": 4910
+    },
+    {
+      "epoch": 0.3095507738769347,
+      "grad_norm": 3.8384459018707275,
+      "learning_rate": 5.260443266462467e-08,
+      "loss": 6.1061,
+      "step": 4920
+    },
+    {
+      "epoch": 0.31017994211652195,
+      "grad_norm": 3.5422239303588867,
+      "learning_rate": 4.0277338347416426e-08,
+      "loss": 6.2073,
+      "step": 4930
+    },
+    {
+      "epoch": 0.3108091103561092,
+      "grad_norm": 3.3417205810546875,
+      "learning_rate": 2.9592831717293326e-08,
+      "loss": 6.1464,
+      "step": 4940
+    },
+    {
+      "epoch": 0.3114382785956965,
+      "grad_norm": 3.266418933868408,
+      "learning_rate": 2.0551351972484257e-08,
+      "loss": 6.0299,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3114382785956965,
+      "eval_loss": 6.099269390106201,
+      "eval_runtime": 12.6673,
+      "eval_samples_per_second": 39.472,
+      "eval_steps_per_second": 39.472,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8687649037787136.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null