Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:605b6352e4f144c720c603619b846c5970b8e875a6e1d21af32f2f39c70e5ed4
 size 344272280

 version https://git-lfs.github.com/spec/v1
+oid sha256:24ff608fe401a25bfdc30fd0c5506056bc6335c49e631feacdbdc1b3448a0544
 size 344272280

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e189170744dbdc8694571e240891ebb0d32958bea93377458785bb9fc01cce30
 size 679704314

 version https://git-lfs.github.com/spec/v1
+oid sha256:690a2738f20b4dcbeff4c19bb96f111f2a515652858020369d2d224161b347cc
 size 679704314

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4b4c026a83c18da602d671df06e1fedc7870ff0ac6d0a79a5ac42621ba77e5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae5ea5cd6925e033f565df6c01bc7c4997a23322a4b649bf4c7af88c11c34277
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8493cf662a0ef9cc409c1e71c561b4f018c668b3acc0b65f5c029d848604c14
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:848d7aad2c2d474b8df3e1c4a379fb71bd6c1fcc4154ae3a9b8234e5418c2c78
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.23246191442012787,
   "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.12572027239392353,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 10.832,
       "eval_steps_per_second": 10.832,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.421481981541417e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.23246191442012787,
   "best_model_checkpoint": "./output/checkpoint-4800",
+  "epoch": 0.12964903090623364,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.832,
       "eval_steps_per_second": 10.832,
       "step": 4800
+    },
+    {
+      "epoch": 0.12598218962807753,
+      "grad_norm": 0.6497934460639954,
+      "learning_rate": 3.7052513621674843e-07,
+      "loss": 0.2168,
+      "step": 4810
+    },
+    {
+      "epoch": 0.12624410686223153,
+      "grad_norm": 0.6902598738670349,
+      "learning_rate": 3.325910369220976e-07,
+      "loss": 0.2027,
+      "step": 4820
+    },
+    {
+      "epoch": 0.12650602409638553,
+      "grad_norm": 0.775836706161499,
+      "learning_rate": 2.9669857027598287e-07,
+      "loss": 0.1909,
+      "step": 4830
+    },
+    {
+      "epoch": 0.12676794133053956,
+      "grad_norm": 0.6741334795951843,
+      "learning_rate": 2.628492116771298e-07,
+      "loss": 0.2682,
+      "step": 4840
+    },
+    {
+      "epoch": 0.12702985856469357,
+      "grad_norm": 0.6389757394790649,
+      "learning_rate": 2.3104435254008856e-07,
+      "loss": 0.2435,
+      "step": 4850
+    },
+    {
+      "epoch": 0.12729177579884757,
+      "grad_norm": 0.5758777856826782,
+      "learning_rate": 2.0128530023804664e-07,
+      "loss": 0.2003,
+      "step": 4860
+    },
+    {
+      "epoch": 0.12755369303300157,
+      "grad_norm": 0.5751017332077026,
+      "learning_rate": 1.7357327804908846e-07,
+      "loss": 0.2571,
+      "step": 4870
+    },
+    {
+      "epoch": 0.12781561026715557,
+      "grad_norm": 0.7180541157722473,
+      "learning_rate": 1.479094251059077e-07,
+      "loss": 0.1966,
+      "step": 4880
+    },
+    {
+      "epoch": 0.12807752750130957,
+      "grad_norm": 0.4487169086933136,
+      "learning_rate": 1.2429479634897272e-07,
+      "loss": 0.2138,
+      "step": 4890
+    },
+    {
+      "epoch": 0.1283394447354636,
+      "grad_norm": 0.5747547149658203,
+      "learning_rate": 1.0273036248318327e-07,
+      "loss": 0.2178,
+      "step": 4900
+    },
+    {
+      "epoch": 0.1286013619696176,
+      "grad_norm": 0.4580157399177551,
+      "learning_rate": 8.321700993795814e-08,
+      "loss": 0.2731,
+      "step": 4910
+    },
+    {
+      "epoch": 0.1288632792037716,
+      "grad_norm": 0.5320990085601807,
+      "learning_rate": 6.575554083078086e-08,
+      "loss": 0.2963,
+      "step": 4920
+    },
+    {
+      "epoch": 0.1291251964379256,
+      "grad_norm": 0.47923505306243896,
+      "learning_rate": 5.034667293427055e-08,
+      "loss": 0.2156,
+      "step": 4930
+    },
+    {
+      "epoch": 0.1293871136720796,
+      "grad_norm": 0.5335540771484375,
+      "learning_rate": 3.6991039646616666e-08,
+      "loss": 0.1598,
+      "step": 4940
+    },
+    {
+      "epoch": 0.12964903090623364,
+      "grad_norm": 0.5056155920028687,
+      "learning_rate": 2.5689189965605327e-08,
+      "loss": 0.1693,
+      "step": 4950
+    },
+    {
+      "epoch": 0.12964903090623364,
+      "eval_loss": 0.23251256346702576,
+      "eval_runtime": 45.894,
+      "eval_samples_per_second": 10.895,
+      "eval_steps_per_second": 10.895,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.65387005936468e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null