Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c2fa6d7c57abe80b81e686c5bb261331348a26463db489c0057496c21099267
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:73320e76344a133855f71d58f5599b5bab5bec21149e32ab22ea8639c81b6efa
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:798f7293795a2261c83bf45e42597af80061bea9a6acf124906fd2023d47a1d7
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:df0f0d4523a1748c8d67b29c00bcdc95ba64d1d0d15e03f3aaf492af944d8a42
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b03ef6d89f6c10452a8bc84393b1dc225e370d174364da48043ff472b287411
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:790c395b0a5037d7be1e3d6aec472475bfb03f273b97c2103b3eaeeee641cbe6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f96e2618e1c452343a3740c32bea2247d1da5a3f0e229791fe5ed8f1e4e8eb3a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0301af88bd95ce6b3924705dcc39f92acccc19dd6a0525d5021e46ffe9ebde47
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 202.17391304347825,
   "eval_steps": 150,
-  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4502,6 +4502,151 @@
       "EMA_steps_per_second": 25.688,
       "epoch": 202.17391304347825,
       "step": 4650
     }
   ],
   "logging_steps": 10,
@@ -4521,7 +4666,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1967994202384794e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 208.69565217391303,
   "eval_steps": 150,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.688,
       "epoch": 202.17391304347825,
       "step": 4650
+    },
+    {
+      "epoch": 202.6086956521739,
+      "grad_norm": 2.3335537910461426,
+      "learning_rate": 1.5297783975071799e-06,
+      "loss": 0.2124,
+      "step": 4660
+    },
+    {
+      "epoch": 203.04347826086956,
+      "grad_norm": 2.041670560836792,
+      "learning_rate": 1.529767331075906e-06,
+      "loss": 0.282,
+      "step": 4670
+    },
+    {
+      "epoch": 203.47826086956522,
+      "grad_norm": 2.462006092071533,
+      "learning_rate": 1.529755961510317e-06,
+      "loss": 0.2352,
+      "step": 4680
+    },
+    {
+      "epoch": 203.91304347826087,
+      "grad_norm": 1.7050849199295044,
+      "learning_rate": 1.5297442888149193e-06,
+      "loss": 0.2125,
+      "step": 4690
+    },
+    {
+      "epoch": 204.34782608695653,
+      "grad_norm": 2.558677911758423,
+      "learning_rate": 1.5297323129943396e-06,
+      "loss": 0.2971,
+      "step": 4700
+    },
+    {
+      "epoch": 204.7826086956522,
+      "grad_norm": 1.8304595947265625,
+      "learning_rate": 1.5297200340533247e-06,
+      "loss": 0.1943,
+      "step": 4710
+    },
+    {
+      "epoch": 205.2173913043478,
+      "grad_norm": 1.568945050239563,
+      "learning_rate": 1.5297074519967415e-06,
+      "loss": 0.1988,
+      "step": 4720
+    },
+    {
+      "epoch": 205.65217391304347,
+      "grad_norm": 2.6844093799591064,
+      "learning_rate": 1.5296945668295776e-06,
+      "loss": 0.2073,
+      "step": 4730
+    },
+    {
+      "epoch": 206.08695652173913,
+      "grad_norm": 2.8607003688812256,
+      "learning_rate": 1.5296813785569398e-06,
+      "loss": 0.2542,
+      "step": 4740
+    },
+    {
+      "epoch": 206.52173913043478,
+      "grad_norm": 2.7412221431732178,
+      "learning_rate": 1.5296678871840554e-06,
+      "loss": 0.2103,
+      "step": 4750
+    },
+    {
+      "epoch": 206.95652173913044,
+      "grad_norm": 2.278228759765625,
+      "learning_rate": 1.5296540927162723e-06,
+      "loss": 0.2414,
+      "step": 4760
+    },
+    {
+      "epoch": 207.3913043478261,
+      "grad_norm": 2.021712064743042,
+      "learning_rate": 1.5296399951590582e-06,
+      "loss": 0.2272,
+      "step": 4770
+    },
+    {
+      "epoch": 207.82608695652175,
+      "grad_norm": 2.287015438079834,
+      "learning_rate": 1.5296255945180007e-06,
+      "loss": 0.2046,
+      "step": 4780
+    },
+    {
+      "epoch": 208.2608695652174,
+      "grad_norm": 2.0657951831817627,
+      "learning_rate": 1.5296108907988078e-06,
+      "loss": 0.2052,
+      "step": 4790
+    },
+    {
+      "epoch": 208.69565217391303,
+      "grad_norm": 2.087261915206909,
+      "learning_rate": 1.529595884007308e-06,
+      "loss": 0.2538,
+      "step": 4800
+    },
+    {
+      "epoch": 208.69565217391303,
+      "eval_loss": 0.9772452116012573,
+      "eval_runtime": 0.4827,
+      "eval_samples_per_second": 20.715,
+      "eval_steps_per_second": 20.715,
+      "step": 4800
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.4411,
+      "Start_State_samples_per_second": 22.671,
+      "Start_State_steps_per_second": 22.671,
+      "epoch": 208.69565217391303,
+      "step": 4800
+    },
+    {
+      "Raw_Model_loss": 0.9772452116012573,
+      "Raw_Model_runtime": 0.4433,
+      "Raw_Model_samples_per_second": 22.56,
+      "Raw_Model_steps_per_second": 22.56,
+      "epoch": 208.69565217391303,
+      "step": 4800
+    },
+    {
+      "SWA_loss": 0.8191676139831543,
+      "SWA_runtime": 0.4674,
+      "SWA_samples_per_second": 21.394,
+      "SWA_steps_per_second": 21.394,
+      "epoch": 208.69565217391303,
+      "step": 4800
+    },
+    {
+      "EMA_loss": 0.8595923185348511,
+      "EMA_runtime": 0.4649,
+      "EMA_samples_per_second": 21.511,
+      "EMA_steps_per_second": 21.511,
+      "epoch": 208.69565217391303,
+      "step": 4800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2352177659543552e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null