Training in progress, step 300, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/lora_lower/adapter_model.safetensors +1 -1
last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/lora_lower/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1843627ca7f5c8892cc27ec365b7b71475f9c7c28bf3db1528f68975cab934af
 size 2058899176

 version https://git-lfs.github.com/spec/v1
+oid sha256:462b6bff6479bc4430adab26dfb4c275946fb47f94c48e49edfad477094d0422
 size 2058899176

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a788bb0ebd30119e21444b5ca652ef18fb146fe392e34129c932ff9be592f7a
 size 2058359328

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4dcaaf734b9b1a56cb2294cf0fa8500e082ee74b2b20b5cd2c67e1122555870
 size 2058359328

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:839291e7974e74a87e53a123a3881b8e276d083b1f2193ef431e4dc80bb107c3
 size 2061522259

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c82dcc7cfa9a457a5aa17056d6b326ba023342eb225aaf0898e6e54c2bb6077
 size 2061522259

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5925e82888e152f6444154d23c1b4f62c064f08b33b27aebad540c586011183c
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:99714ae94e1721c655a4d2e5fffbbc6ed7e1f5ed893f7bf8f89ada975f3ed81f
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6f51347b38751994e31f402f6d1cbfdce41c21e3b2e0fd15f1fdf02faa3c7d5
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f41cbca3e8e87d3857cac1912cf18c05169bb171e7530cf76d23b482cbc432c
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.046905040740967,
-  "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 0.02449779519843214,
   "eval_steps": 150,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -120,6 +120,119 @@
       "eval_samples_per_second": 39.533,
       "eval_steps_per_second": 39.533,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -139,7 +252,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7269696958758912.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.867088794708252,
+  "best_model_checkpoint": "./output/checkpoint-300",
+  "epoch": 0.04899559039686428,
   "eval_steps": 150,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.533,
       "eval_steps_per_second": 39.533,
       "step": 150
+    },
+    {
+      "epoch": 0.026130981544994283,
+      "grad_norm": 39.35482406616211,
+      "learning_rate": 2.1536377422415337e-05,
+      "loss": 3.9314,
+      "step": 160
+    },
+    {
+      "epoch": 0.027764167891556425,
+      "grad_norm": 49.44642639160156,
+      "learning_rate": 2.1533500038449112e-05,
+      "loss": 3.9469,
+      "step": 170
+    },
+    {
+      "epoch": 0.02939735423811857,
+      "grad_norm": 47.13311004638672,
+      "learning_rate": 2.1530180298496075e-05,
+      "loss": 3.8316,
+      "step": 180
+    },
+    {
+      "epoch": 0.031030540584680712,
+      "grad_norm": 45.86495590209961,
+      "learning_rate": 2.1526418339017734e-05,
+      "loss": 3.9398,
+      "step": 190
+    },
+    {
+      "epoch": 0.03266372693124286,
+      "grad_norm": 42.1937141418457,
+      "learning_rate": 2.152221431465351e-05,
+      "loss": 3.8032,
+      "step": 200
+    },
+    {
+      "epoch": 0.034296913277805,
+      "grad_norm": 43.07133865356445,
+      "learning_rate": 2.1517568398214374e-05,
+      "loss": 3.823,
+      "step": 210
+    },
+    {
+      "epoch": 0.03593009962436714,
+      "grad_norm": 52.06683349609375,
+      "learning_rate": 2.1512480780675756e-05,
+      "loss": 3.6545,
+      "step": 220
+    },
+    {
+      "epoch": 0.03756328597092928,
+      "grad_norm": 43.83436965942383,
+      "learning_rate": 2.150695167116969e-05,
+      "loss": 3.8256,
+      "step": 230
+    },
+    {
+      "epoch": 0.039196472317491425,
+      "grad_norm": 46.70238494873047,
+      "learning_rate": 2.1500981296976207e-05,
+      "loss": 3.8661,
+      "step": 240
+    },
+    {
+      "epoch": 0.04082965866405357,
+      "grad_norm": 47.87880325317383,
+      "learning_rate": 2.1494569903514006e-05,
+      "loss": 3.7335,
+      "step": 250
+    },
+    {
+      "epoch": 0.04246284501061571,
+      "grad_norm": 42.191898345947266,
+      "learning_rate": 2.1487717754330366e-05,
+      "loss": 3.7399,
+      "step": 260
+    },
+    {
+      "epoch": 0.04409603135717785,
+      "grad_norm": 41.03351974487305,
+      "learning_rate": 2.1480425131090295e-05,
+      "loss": 3.703,
+      "step": 270
+    },
+    {
+      "epoch": 0.04572921770374,
+      "grad_norm": 41.71271896362305,
+      "learning_rate": 2.1472692333564976e-05,
+      "loss": 3.6198,
+      "step": 280
+    },
+    {
+      "epoch": 0.04736240405030214,
+      "grad_norm": 40.65316390991211,
+      "learning_rate": 2.1464519679619426e-05,
+      "loss": 3.6979,
+      "step": 290
+    },
+    {
+      "epoch": 0.04899559039686428,
+      "grad_norm": 37.19804382324219,
+      "learning_rate": 2.1455907505199437e-05,
+      "loss": 3.638,
+      "step": 300
+    },
+    {
+      "epoch": 0.04899559039686428,
+      "eval_loss": 3.867088794708252,
+      "eval_runtime": 17.9999,
+      "eval_samples_per_second": 27.778,
+      "eval_steps_per_second": 27.778,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4443567455141888e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null