Training in progress, step 1800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3af98a6bbc1b21157f06c9dadb62daa1e1d00adfe26d7090e693b71989087ae
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:d04d5fa41fa6f39ff0e99d56a6427bf17f28fc57677e4371c961796044f5d2a3
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f582039ac055bd7a42eb85aa1505df7e0717c40124b85c35253f1f3e1f58f5db
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccaaf38526637635b1485eaad8168918d1ff4276d494189eacd7059d25f24082
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:001785b24c383f1dc5e05ca97682558022e868af635239d8c60b6646c2c21747
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8f11fbb1dc348e5245b6e67b90b53d052aa55ce6bbd45d7369c3c11528ee140
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e0ba921a18d46c557f13f21f43adf78f0e35b0b4cbde5268f7f2125015b3077
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8b759658b308282d06846d4dfda31388c652c687853c092da47be547d0736c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 71.73913043478261,
   "eval_steps": 150,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1602,6 +1602,151 @@
       "EMA_steps_per_second": 22.836,
       "epoch": 71.73913043478261,
       "step": 1650
     }
   ],
   "logging_steps": 10,
@@ -1621,7 +1766,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.242701339976499e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 78.26086956521739,
   "eval_steps": 150,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 22.836,
       "epoch": 71.73913043478261,
       "step": 1650
+    },
+    {
+      "epoch": 72.17391304347827,
+      "grad_norm": 1.6176584959030151,
+      "learning_rate": 1.4980098028538014e-05,
+      "loss": 0.3276,
+      "step": 1660
+    },
+    {
+      "epoch": 72.6086956521739,
+      "grad_norm": 2.0951242446899414,
+      "learning_rate": 1.4979989662368391e-05,
+      "loss": 0.2962,
+      "step": 1670
+    },
+    {
+      "epoch": 73.04347826086956,
+      "grad_norm": 1.9010318517684937,
+      "learning_rate": 1.4979878327806899e-05,
+      "loss": 0.3096,
+      "step": 1680
+    },
+    {
+      "epoch": 73.47826086956522,
+      "grad_norm": 1.990721344947815,
+      "learning_rate": 1.4979764024897668e-05,
+      "loss": 0.2877,
+      "step": 1690
+    },
+    {
+      "epoch": 73.91304347826087,
+      "grad_norm": 1.8217382431030273,
+      "learning_rate": 1.4979646753686002e-05,
+      "loss": 0.2797,
+      "step": 1700
+    },
+    {
+      "epoch": 74.34782608695652,
+      "grad_norm": 1.3920949697494507,
+      "learning_rate": 1.4979526514218385e-05,
+      "loss": 0.277,
+      "step": 1710
+    },
+    {
+      "epoch": 74.78260869565217,
+      "grad_norm": 1.4952901601791382,
+      "learning_rate": 1.4979403306542473e-05,
+      "loss": 0.3281,
+      "step": 1720
+    },
+    {
+      "epoch": 75.21739130434783,
+      "grad_norm": 1.6056287288665771,
+      "learning_rate": 1.4979277130707107e-05,
+      "loss": 0.234,
+      "step": 1730
+    },
+    {
+      "epoch": 75.65217391304348,
+      "grad_norm": 1.6877388954162598,
+      "learning_rate": 1.4979147986762295e-05,
+      "loss": 0.3147,
+      "step": 1740
+    },
+    {
+      "epoch": 76.08695652173913,
+      "grad_norm": 1.7907490730285645,
+      "learning_rate": 1.4979015874759227e-05,
+      "loss": 0.2696,
+      "step": 1750
+    },
+    {
+      "epoch": 76.52173913043478,
+      "grad_norm": 1.866333246231079,
+      "learning_rate": 1.4978880794750266e-05,
+      "loss": 0.2663,
+      "step": 1760
+    },
+    {
+      "epoch": 76.95652173913044,
+      "grad_norm": 1.275960087776184,
+      "learning_rate": 1.4978742746788957e-05,
+      "loss": 0.3004,
+      "step": 1770
+    },
+    {
+      "epoch": 77.3913043478261,
+      "grad_norm": 1.8372234106063843,
+      "learning_rate": 1.4978601730930014e-05,
+      "loss": 0.2842,
+      "step": 1780
+    },
+    {
+      "epoch": 77.82608695652173,
+      "grad_norm": 1.8203933238983154,
+      "learning_rate": 1.4978457747229335e-05,
+      "loss": 0.2714,
+      "step": 1790
+    },
+    {
+      "epoch": 78.26086956521739,
+      "grad_norm": 1.8666887283325195,
+      "learning_rate": 1.497831079574399e-05,
+      "loss": 0.3054,
+      "step": 1800
+    },
+    {
+      "epoch": 78.26086956521739,
+      "eval_loss": 0.8706566691398621,
+      "eval_runtime": 0.4194,
+      "eval_samples_per_second": 23.844,
+      "eval_steps_per_second": 23.844,
+      "step": 1800
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4248,
+      "Start_State_samples_per_second": 23.542,
+      "Start_State_steps_per_second": 23.542,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "Raw_Model_loss": 0.8706566691398621,
+      "Raw_Model_runtime": 0.4195,
+      "Raw_Model_samples_per_second": 23.839,
+      "Raw_Model_steps_per_second": 23.839,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "SWA_loss": 0.7383162379264832,
+      "SWA_runtime": 0.4011,
+      "SWA_samples_per_second": 24.93,
+      "SWA_steps_per_second": 24.93,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "EMA_loss": 0.8612034916877747,
+      "EMA_runtime": 0.4073,
+      "EMA_samples_per_second": 24.55,
+      "EMA_steps_per_second": 24.55,
+      "epoch": 78.26086956521739,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.631084552967782e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null