Training in progress, step 1950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fef9f5e763df977a6d66200c2b774f79362d53395811821634923be4de05095f
 size 1252339768

 version https://git-lfs.github.com/spec/v1
+oid sha256:a66f530074025ce9a868656712abe5b9851577acdf8c6996b5934299ab17d9df
 size 1252339768

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:889b331db9f86d0820197833669ee4f6f5be0751345502b526ea0c9385372e71
 size 922711674

 version https://git-lfs.github.com/spec/v1
+oid sha256:602f73099bf923d15f70a8a148b96595915e9977d54842736c1dd52de11d9e6d
 size 922711674

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd84dc0618cff04de1d820f56790b53f09a83540b67a5913a4d65c1ec4d76a8d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:379a5e6efcfc2c2acbc05d6d635118ce7aff442a8e90d42cfe4f041d83d97567
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2045cf70d5b75a930f47730c11bef0eb78af4c3bdc39abfe9aa52f6177c6833
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7e3cde54edf92558be8268ded51d77ecba3dd577313ae619e684eff0af121d6
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.6718898415565491,
   "best_model_checkpoint": "./output/checkpoint-1050",
-  "epoch": 1.6666666666666665,
   "eval_steps": 150,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1363,6 +1363,119 @@
       "eval_samples_per_second": 7.231,
       "eval_steps_per_second": 7.231,
       "step": 1800
     }
   ],
   "logging_steps": 10,
@@ -1382,7 +1495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.3624807854073805e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.6718898415565491,
   "best_model_checkpoint": "./output/checkpoint-1050",
+  "epoch": 1.8055555555555556,
   "eval_steps": 150,
+  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.231,
       "eval_steps_per_second": 7.231,
       "step": 1800
+    },
+    {
+      "epoch": 1.675925925925926,
+      "grad_norm": 8.68697452545166,
+      "learning_rate": 1.6288016313047095e-05,
+      "loss": 0.4179,
+      "step": 1810
+    },
+    {
+      "epoch": 1.6851851851851851,
+      "grad_norm": 7.802534103393555,
+      "learning_rate": 1.6224147486147602e-05,
+      "loss": 0.3834,
+      "step": 1820
+    },
+    {
+      "epoch": 1.6944444444444444,
+      "grad_norm": 9.18057918548584,
+      "learning_rate": 1.616007132807298e-05,
+      "loss": 0.4318,
+      "step": 1830
+    },
+    {
+      "epoch": 1.7037037037037037,
+      "grad_norm": 11.710827827453613,
+      "learning_rate": 1.6095790472743107e-05,
+      "loss": 0.3901,
+      "step": 1840
+    },
+    {
+      "epoch": 1.7129629629629628,
+      "grad_norm": 16.61398696899414,
+      "learning_rate": 1.6031307562492174e-05,
+      "loss": 0.4248,
+      "step": 1850
+    },
+    {
+      "epoch": 1.7222222222222223,
+      "grad_norm": 9.394521713256836,
+      "learning_rate": 1.5966625247960068e-05,
+      "loss": 0.3785,
+      "step": 1860
+    },
+    {
+      "epoch": 1.7314814814814814,
+      "grad_norm": 8.738484382629395,
+      "learning_rate": 1.5901746187983387e-05,
+      "loss": 0.4888,
+      "step": 1870
+    },
+    {
+      "epoch": 1.7407407407407407,
+      "grad_norm": 9.013481140136719,
+      "learning_rate": 1.5836673049486175e-05,
+      "loss": 0.466,
+      "step": 1880
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 5.994925022125244,
+      "learning_rate": 1.577140850737029e-05,
+      "loss": 0.4301,
+      "step": 1890
+    },
+    {
+      "epoch": 1.7592592592592593,
+      "grad_norm": 17.245548248291016,
+      "learning_rate": 1.5705955244405423e-05,
+      "loss": 0.4447,
+      "step": 1900
+    },
+    {
+      "epoch": 1.7685185185185186,
+      "grad_norm": 13.091217041015625,
+      "learning_rate": 1.564031595111886e-05,
+      "loss": 0.4568,
+      "step": 1910
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 9.169949531555176,
+      "learning_rate": 1.557449332568485e-05,
+      "loss": 0.4043,
+      "step": 1920
+    },
+    {
+      "epoch": 1.7870370370370372,
+      "grad_norm": 7.6942644119262695,
+      "learning_rate": 1.5508490073813722e-05,
+      "loss": 0.4212,
+      "step": 1930
+    },
+    {
+      "epoch": 1.7962962962962963,
+      "grad_norm": 11.494171142578125,
+      "learning_rate": 1.5442308908640636e-05,
+      "loss": 0.4773,
+      "step": 1940
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 11.983560562133789,
+      "learning_rate": 1.537595255061408e-05,
+      "loss": 0.4704,
+      "step": 1950
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "eval_loss": 0.6845656037330627,
+      "eval_runtime": 66.4105,
+      "eval_samples_per_second": 7.228,
+      "eval_steps_per_second": 7.228,
+      "step": 1950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.735843482878876e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null