Training in progress, step 3600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5ae9b29eb37fb42fbf9eb5c115694ca371fc0e26d4460d51c1e57b3b7f723c9
 size 1482788592

 version https://git-lfs.github.com/spec/v1
+oid sha256:56adc46736dfdc18a58910a686e2a779cba708bf6c825f8800fef1e78b71d1bc
 size 1482788592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9da6009db3b3db494405891115b35bd636e8f9d306e763d8bed169ece55bbae
 size 2897966906

 version https://git-lfs.github.com/spec/v1
+oid sha256:3deb754b02aaaeec6deedc193d54436001e2674d2c2998d170671b9e84137f76
 size 2897966906

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:141d455bf1ffc585ca3b0d4600374ccf796a7b5d1e74d5bec5dfdbb48f5b8730
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:06599328356df05dcd7620b70dec8196479b5dd136c51c39b6857ed431a006a3
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c2119f62c9bb82318a2a55e4166f17944514b5630048a532b95bcfb2f08059
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:d555d4e386572ab2daf72a4552c1fc6dfd64262cf0a36378fd375ab0aa6f30eb
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9126400947570801,
-  "best_model_checkpoint": "./output/checkpoint-3450",
-  "epoch": 0.18417680973734785,
   "eval_steps": 150,
-  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2606,6 +2606,119 @@
       "eval_samples_per_second": 10.938,
       "eval_steps_per_second": 10.938,
       "step": 3450
     }
   ],
   "logging_steps": 10,
@@ -2625,7 +2738,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.690903503673754e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9102906584739685,
+  "best_model_checkpoint": "./output/checkpoint-3600",
+  "epoch": 0.19218449711723254,
   "eval_steps": 150,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.938,
       "eval_steps_per_second": 10.938,
       "step": 3450
+    },
+    {
+      "epoch": 0.1847106555626735,
+      "grad_norm": 3.9905812740325928,
+      "learning_rate": 5.021124391867238e-06,
+      "loss": 0.9259,
+      "step": 3460
+    },
+    {
+      "epoch": 0.18524450138799914,
+      "grad_norm": 3.8994193077087402,
+      "learning_rate": 4.961427693487651e-06,
+      "loss": 0.9445,
+      "step": 3470
+    },
+    {
+      "epoch": 0.18577834721332478,
+      "grad_norm": 3.8168013095855713,
+      "learning_rate": 4.901986630230546e-06,
+      "loss": 0.9217,
+      "step": 3480
+    },
+    {
+      "epoch": 0.18631219303865043,
+      "grad_norm": 3.907036781311035,
+      "learning_rate": 4.842803645485225e-06,
+      "loss": 0.9357,
+      "step": 3490
+    },
+    {
+      "epoch": 0.18684603886397608,
+      "grad_norm": 3.967823028564453,
+      "learning_rate": 4.783881172032377e-06,
+      "loss": 0.9106,
+      "step": 3500
+    },
+    {
+      "epoch": 0.18737988468930172,
+      "grad_norm": 4.027585506439209,
+      "learning_rate": 4.7252216319441075e-06,
+      "loss": 0.932,
+      "step": 3510
+    },
+    {
+      "epoch": 0.18791373051462737,
+      "grad_norm": 4.006540775299072,
+      "learning_rate": 4.666827436484353e-06,
+      "loss": 0.8955,
+      "step": 3520
+    },
+    {
+      "epoch": 0.18844757633995302,
+      "grad_norm": 3.8036961555480957,
+      "learning_rate": 4.6087009860097786e-06,
+      "loss": 0.9312,
+      "step": 3530
+    },
+    {
+      "epoch": 0.18898142216527866,
+      "grad_norm": 3.7361538410186768,
+      "learning_rate": 4.550844669871094e-06,
+      "loss": 0.9386,
+      "step": 3540
+    },
+    {
+      "epoch": 0.1895152679906043,
+      "grad_norm": 4.001733779907227,
+      "learning_rate": 4.493260866314849e-06,
+      "loss": 0.94,
+      "step": 3550
+    },
+    {
+      "epoch": 0.19004911381592995,
+      "grad_norm": 3.9928550720214844,
+      "learning_rate": 4.435951942385668e-06,
+      "loss": 0.9325,
+      "step": 3560
+    },
+    {
+      "epoch": 0.1905829596412556,
+      "grad_norm": 3.8929483890533447,
+      "learning_rate": 4.378920253828951e-06,
+      "loss": 0.9225,
+      "step": 3570
+    },
+    {
+      "epoch": 0.19111680546658125,
+      "grad_norm": 3.993201971054077,
+      "learning_rate": 4.3221681449940384e-06,
+      "loss": 0.9303,
+      "step": 3580
+    },
+    {
+      "epoch": 0.1916506512919069,
+      "grad_norm": 4.079780101776123,
+      "learning_rate": 4.2656979487378346e-06,
+      "loss": 0.9439,
+      "step": 3590
+    },
+    {
+      "epoch": 0.19218449711723254,
+      "grad_norm": 3.9021401405334473,
+      "learning_rate": 4.2095119863289336e-06,
+      "loss": 0.9037,
+      "step": 3600
+    },
+    {
+      "epoch": 0.19218449711723254,
+      "eval_loss": 0.9102906584739685,
+      "eval_runtime": 45.8489,
+      "eval_samples_per_second": 10.905,
+      "eval_steps_per_second": 10.905,
+      "step": 3600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0113807646103962e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null