Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0df78e692defadb84568edca305adffd7b9529abb8c9b3b91b1f9ea47d1a21f5
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:44c160d59362d9998e9102b16a7c722555cc9a3b87d2a24bd56cfa2e1406fd59
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de73ad5b03551d4d5684644b29f657d82e4cbc9d8443f9f124c546c260bed71f
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5b27372b9255f1e87b65fe832eb4ea027e48ccbfe3973c3339a67d4e77ed6bb
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ca9142fcbd976a2b9880762578e5776f18d9cad34016a627060f41ab78ec47d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5535f299045fe8f5c903e1fe89ea07c865852a623fd1578e00cbe2ef4b1aa5e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a615c97559beeeb761a113ec8f76cd5a30f01f1e374145e869eb8521acc6eaa9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:15e38fc7cb67eb5df095ca277e8495019522abe02c611f770970f2de2af01dea
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 32.608695652173914,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -732,6 +732,151 @@
       "eval_samples_per_second": 24.083,
       "eval_steps_per_second": 24.083,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -751,7 +896,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9231766387195904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 39.130434782608695,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.083,
       "eval_steps_per_second": 24.083,
       "step": 750
+    },
+    {
+      "epoch": 33.04347826086956,
+      "grad_norm": 1.426059603691101,
+      "learning_rate": 1.5715375657489587e-06,
+      "loss": 0.4543,
+      "step": 760
+    },
+    {
+      "epoch": 33.47826086956522,
+      "grad_norm": 1.5478020906448364,
+      "learning_rate": 3.1430751314979174e-06,
+      "loss": 0.4608,
+      "step": 770
+    },
+    {
+      "epoch": 33.91304347826087,
+      "grad_norm": 1.2852143049240112,
+      "learning_rate": 4.714612697246876e-06,
+      "loss": 0.4359,
+      "step": 780
+    },
+    {
+      "epoch": 34.34782608695652,
+      "grad_norm": 1.3916325569152832,
+      "learning_rate": 6.286150262995835e-06,
+      "loss": 0.4366,
+      "step": 790
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 1.4073759317398071,
+      "learning_rate": 7.857687828744793e-06,
+      "loss": 0.4145,
+      "step": 800
+    },
+    {
+      "epoch": 35.21739130434783,
+      "grad_norm": 1.258367896080017,
+      "learning_rate": 9.429225394493751e-06,
+      "loss": 0.5149,
+      "step": 810
+    },
+    {
+      "epoch": 35.65217391304348,
+      "grad_norm": 1.2376227378845215,
+      "learning_rate": 1.100076296024271e-05,
+      "loss": 0.4429,
+      "step": 820
+    },
+    {
+      "epoch": 36.08695652173913,
+      "grad_norm": 1.071475625038147,
+      "learning_rate": 1.257230052599167e-05,
+      "loss": 0.4587,
+      "step": 830
+    },
+    {
+      "epoch": 36.52173913043478,
+      "grad_norm": 1.109466552734375,
+      "learning_rate": 1.4143838091740628e-05,
+      "loss": 0.4244,
+      "step": 840
+    },
+    {
+      "epoch": 36.95652173913044,
+      "grad_norm": 1.3434367179870605,
+      "learning_rate": 1.5715375657489586e-05,
+      "loss": 0.4951,
+      "step": 850
+    },
+    {
+      "epoch": 37.391304347826086,
+      "grad_norm": 1.8077468872070312,
+      "learning_rate": 1.5715374100221386e-05,
+      "loss": 0.4675,
+      "step": 860
+    },
+    {
+      "epoch": 37.82608695652174,
+      "grad_norm": 1.2127968072891235,
+      "learning_rate": 1.5715369428417403e-05,
+      "loss": 0.4156,
+      "step": 870
+    },
+    {
+      "epoch": 38.26086956521739,
+      "grad_norm": 1.1871669292449951,
+      "learning_rate": 1.571536164207949e-05,
+      "loss": 0.4515,
+      "step": 880
+    },
+    {
+      "epoch": 38.69565217391305,
+      "grad_norm": 1.3719384670257568,
+      "learning_rate": 1.571535074121073e-05,
+      "loss": 0.4019,
+      "step": 890
+    },
+    {
+      "epoch": 39.130434782608695,
+      "grad_norm": 1.8886760473251343,
+      "learning_rate": 1.5715336725815448e-05,
+      "loss": 0.5218,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.7287566661834717,
+      "eval_runtime": 0.5312,
+      "eval_samples_per_second": 18.825,
+      "eval_steps_per_second": 18.825,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.8616224527359009,
+      "eval_runtime": 0.4551,
+      "eval_samples_per_second": 21.972,
+      "eval_steps_per_second": 21.972,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.7287566661834717,
+      "eval_runtime": 0.4445,
+      "eval_samples_per_second": 22.5,
+      "eval_steps_per_second": 22.5,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.7235647439956665,
+      "eval_runtime": 0.4458,
+      "eval_samples_per_second": 22.434,
+      "eval_steps_per_second": 22.434,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.8611491322517395,
+      "eval_runtime": 0.4432,
+      "eval_samples_per_second": 22.563,
+      "eval_steps_per_second": 22.563,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.3078822838165504e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null