Training in progress, step 5100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f80ba914040554f1d90e5449fb288b4da5b6e06b0d76aa98ce7dddde9700b42e
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b8241d490cf7c6d73daa6e58d1e953d37a78b29a116a5819c07ede09f2a18a6
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b5a85cf2dc26270c152d94b20c59b9328d1c1900e3688d967f5caa95b453a21
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a28d22fdc04db2c35d665a1ac5cb8cd349b54d05fc00d81df4548b08481678c
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db84a3afeb4f95e4ac798b091171126770595698eb1a4e09a848baf2239c44e8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:67c6f49cb50d8b09b0f2e9704dcb4986f8fc63f53d3b695322fdb8756b868c02
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fad51fab4121c7172f2200154af188e4ded1ceaffc87bf0a38752fa2cf99398
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:736f4102e80c412e5bd9ae55e7c4ee4195aa9541999b56cf808f798e57d982a7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 215.2173913043478,
   "eval_steps": 150,
-  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4792,6 +4792,151 @@
       "EMA_steps_per_second": 23.17,
       "epoch": 215.2173913043478,
       "step": 4950
     }
   ],
   "logging_steps": 10,
@@ -4811,7 +4956,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2725269073480909e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 221.7391304347826,
   "eval_steps": 150,
+  "global_step": 5100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 23.17,
       "epoch": 215.2173913043478,
       "step": 4950
+    },
+    {
+      "epoch": 215.65217391304347,
+      "grad_norm": 2.2454140186309814,
+      "learning_rate": 1.5293145627308224e-06,
+      "loss": 0.2412,
+      "step": 4960
+    },
+    {
+      "epoch": 216.08695652173913,
+      "grad_norm": 2.0021111965179443,
+      "learning_rate": 1.52929440471819e-06,
+      "loss": 0.2214,
+      "step": 4970
+    },
+    {
+      "epoch": 216.52173913043478,
+      "grad_norm": 1.6608623266220093,
+      "learning_rate": 1.5292739437586956e-06,
+      "loss": 0.215,
+      "step": 4980
+    },
+    {
+      "epoch": 216.95652173913044,
+      "grad_norm": 1.7904845476150513,
+      "learning_rate": 1.5292531798604489e-06,
+      "loss": 0.2533,
+      "step": 4990
+    },
+    {
+      "epoch": 217.3913043478261,
+      "grad_norm": 2.007638931274414,
+      "learning_rate": 1.52923211303168e-06,
+      "loss": 0.2257,
+      "step": 5000
+    },
+    {
+      "epoch": 217.82608695652175,
+      "grad_norm": 2.0071678161621094,
+      "learning_rate": 1.5292107432807391e-06,
+      "loss": 0.2142,
+      "step": 5010
+    },
+    {
+      "epoch": 218.2608695652174,
+      "grad_norm": 1.6132997274398804,
+      "learning_rate": 1.5291890706160969e-06,
+      "loss": 0.2562,
+      "step": 5020
+    },
+    {
+      "epoch": 218.69565217391303,
+      "grad_norm": 1.4705387353897095,
+      "learning_rate": 1.5291670950463434e-06,
+      "loss": 0.2503,
+      "step": 5030
+    },
+    {
+      "epoch": 219.1304347826087,
+      "grad_norm": 2.801940679550171,
+      "learning_rate": 1.529144816580189e-06,
+      "loss": 0.1838,
+      "step": 5040
+    },
+    {
+      "epoch": 219.56521739130434,
+      "grad_norm": 2.1510982513427734,
+      "learning_rate": 1.5291222352264644e-06,
+      "loss": 0.2212,
+      "step": 5050
+    },
+    {
+      "epoch": 220.0,
+      "grad_norm": 3.703181028366089,
+      "learning_rate": 1.5290993509941199e-06,
+      "loss": 0.2361,
+      "step": 5060
+    },
+    {
+      "epoch": 220.43478260869566,
+      "grad_norm": 2.0578255653381348,
+      "learning_rate": 1.5290761638922261e-06,
+      "loss": 0.1747,
+      "step": 5070
+    },
+    {
+      "epoch": 220.8695652173913,
+      "grad_norm": 2.1845853328704834,
+      "learning_rate": 1.5290526739299738e-06,
+      "loss": 0.2639,
+      "step": 5080
+    },
+    {
+      "epoch": 221.30434782608697,
+      "grad_norm": 2.506991386413574,
+      "learning_rate": 1.5290288811166734e-06,
+      "loss": 0.2194,
+      "step": 5090
+    },
+    {
+      "epoch": 221.7391304347826,
+      "grad_norm": 2.7278904914855957,
+      "learning_rate": 1.529004785461756e-06,
+      "loss": 0.2112,
+      "step": 5100
+    },
+    {
+      "epoch": 221.7391304347826,
+      "eval_loss": 0.9890514612197876,
+      "eval_runtime": 0.4992,
+      "eval_samples_per_second": 20.032,
+      "eval_steps_per_second": 20.032,
+      "step": 5100
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.4385,
+      "Start_State_samples_per_second": 22.807,
+      "Start_State_steps_per_second": 22.807,
+      "epoch": 221.7391304347826,
+      "step": 5100
+    },
+    {
+      "Raw_Model_loss": 0.9890514612197876,
+      "Raw_Model_runtime": 0.4364,
+      "Raw_Model_samples_per_second": 22.915,
+      "Raw_Model_steps_per_second": 22.915,
+      "epoch": 221.7391304347826,
+      "step": 5100
+    },
+    {
+      "SWA_loss": 0.8240174055099487,
+      "SWA_runtime": 0.4349,
+      "SWA_samples_per_second": 22.995,
+      "SWA_steps_per_second": 22.995,
+      "epoch": 221.7391304347826,
+      "step": 5100
+    },
+    {
+      "EMA_loss": 0.8594372868537903,
+      "EMA_runtime": 0.4421,
+      "EMA_samples_per_second": 22.619,
+      "EMA_steps_per_second": 22.619,
+      "epoch": 221.7391304347826,
+      "step": 5100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3106424730691174e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null