Training in progress, step 1800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e34a2741903c7131a591ab1ea100bd60a9f729205b2327f5d897a43dd1a350df
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:24b0844f48802856ec7fd062b5709ea322f8eeb94234eec4d37c4a7382b9a77d
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8b868ab44d14f751a290f2fb9a43b0004c429bf63a62d6da5cdde1046626611
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:82d2ef26f0dbfc4a6f2ca1147a92ec246182a3349e536111f87633feba51cb62
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:001785b24c383f1dc5e05ca97682558022e868af635239d8c60b6646c2c21747
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8f11fbb1dc348e5245b6e67b90b53d052aa55ce6bbd45d7369c3c11528ee140
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e0ba921a18d46c557f13f21f43adf78f0e35b0b4cbde5268f7f2125015b3077
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8b759658b308282d06846d4dfda31388c652c687853c092da47be547d0736c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166430950164795,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 71.73913043478261,
   "eval_steps": 150,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1602,6 +1602,151 @@
       "EMA_steps_per_second": 25.662,
       "epoch": 71.73913043478261,
       "step": 1650
     }
   ],
   "logging_steps": 10,
@@ -1621,7 +1766,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.242701339976499e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166430950164795,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 78.26086956521739,
   "eval_steps": 150,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.662,
       "epoch": 71.73913043478261,
       "step": 1650
+    },
+    {
+      "epoch": 72.17391304347827,
+      "grad_norm": 1.664617896080017,
+      "learning_rate": 1.4980098028538014e-05,
+      "loss": 0.3276,
+      "step": 1660
+    },
+    {
+      "epoch": 72.6086956521739,
+      "grad_norm": 2.0435194969177246,
+      "learning_rate": 1.4979989662368391e-05,
+      "loss": 0.2963,
+      "step": 1670
+    },
+    {
+      "epoch": 73.04347826086956,
+      "grad_norm": 1.906278133392334,
+      "learning_rate": 1.4979878327806899e-05,
+      "loss": 0.3093,
+      "step": 1680
+    },
+    {
+      "epoch": 73.47826086956522,
+      "grad_norm": 2.026448965072632,
+      "learning_rate": 1.4979764024897668e-05,
+      "loss": 0.2875,
+      "step": 1690
+    },
+    {
+      "epoch": 73.91304347826087,
+      "grad_norm": 1.8200604915618896,
+      "learning_rate": 1.4979646753686002e-05,
+      "loss": 0.2793,
+      "step": 1700
+    },
+    {
+      "epoch": 74.34782608695652,
+      "grad_norm": 1.414810061454773,
+      "learning_rate": 1.4979526514218385e-05,
+      "loss": 0.277,
+      "step": 1710
+    },
+    {
+      "epoch": 74.78260869565217,
+      "grad_norm": 1.4874234199523926,
+      "learning_rate": 1.4979403306542473e-05,
+      "loss": 0.3277,
+      "step": 1720
+    },
+    {
+      "epoch": 75.21739130434783,
+      "grad_norm": 1.5648179054260254,
+      "learning_rate": 1.4979277130707107e-05,
+      "loss": 0.2337,
+      "step": 1730
+    },
+    {
+      "epoch": 75.65217391304348,
+      "grad_norm": 1.6863374710083008,
+      "learning_rate": 1.4979147986762295e-05,
+      "loss": 0.3146,
+      "step": 1740
+    },
+    {
+      "epoch": 76.08695652173913,
+      "grad_norm": 1.7994861602783203,
+      "learning_rate": 1.4979015874759227e-05,
+      "loss": 0.2694,
+      "step": 1750
+    },
+    {
+      "epoch": 76.52173913043478,
+      "grad_norm": 1.8553599119186401,
+      "learning_rate": 1.4978880794750266e-05,
+      "loss": 0.2661,
+      "step": 1760
+    },
+    {
+      "epoch": 76.95652173913044,
+      "grad_norm": 1.3038052320480347,
+      "learning_rate": 1.4978742746788957e-05,
+      "loss": 0.3005,
+      "step": 1770
+    },
+    {
+      "epoch": 77.3913043478261,
+      "grad_norm": 1.8376268148422241,
+      "learning_rate": 1.4978601730930014e-05,
+      "loss": 0.2843,
+      "step": 1780
+    },
+    {
+      "epoch": 77.82608695652173,
+      "grad_norm": 1.8291127681732178,
+      "learning_rate": 1.4978457747229335e-05,
+      "loss": 0.2715,
+      "step": 1790
+    },
+    {
+      "epoch": 78.26086956521739,
+      "grad_norm": 1.933289885520935,
+      "learning_rate": 1.497831079574399e-05,
+      "loss": 0.3055,
+      "step": 1800
+    },
+    {
+      "epoch": 78.26086956521739,
+      "eval_loss": 0.8690454363822937,
+      "eval_runtime": 0.4165,
+      "eval_samples_per_second": 24.008,
+      "eval_steps_per_second": 24.008,
+      "step": 1800
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.3983,
+      "Start_State_samples_per_second": 25.109,
+      "Start_State_steps_per_second": 25.109,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "Raw_Model_loss": 0.8690454363822937,
+      "Raw_Model_runtime": 0.4147,
+      "Raw_Model_samples_per_second": 24.115,
+      "Raw_Model_steps_per_second": 24.115,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "SWA_loss": 0.7372413873672485,
+      "SWA_runtime": 0.4087,
+      "SWA_samples_per_second": 24.465,
+      "SWA_steps_per_second": 24.465,
+      "epoch": 78.26086956521739,
+      "step": 1800
+    },
+    {
+      "EMA_loss": 0.8606707453727722,
+      "EMA_runtime": 0.4092,
+      "EMA_samples_per_second": 24.44,
+      "EMA_steps_per_second": 24.44,
+      "epoch": 78.26086956521739,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.631084552967782e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null