Training in progress, step 1200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca76f47f61e6294ad679314dbfbcce80d0fe37e1c0461e75d714ddb535f5da79
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:84029e8f70d12b2c7137d5b303188195f30521bd1c82299d6d37b24c0269a65a
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa76e92f4b693debfd6dc410477c70a9606cc7c9bbe0490fcd9f2d6361e7ead5
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d1059ec2c30fa5b1aacfd6d9895b6233f1694495648c48fedab4d2b8e820425
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eed7e63646e60ae2bd56a0754378b43da25eff8bd39e1edda0ec4d07c731eeb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7622d316fe354db40f60bc22ab635af3869b60bf5a6c816cb74ee6598c94be27
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6548eb58d62e7512c294251f1e8c024e396ed51c9a6b80ba70928a1cdaee6c7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:351fd5edffc48c8b46106c61b298184039dcb3c5ee48faa68a22154873155edd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 45.65217391304348,
   "eval_steps": 150,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1022,6 +1022,151 @@
       "eval_samples_per_second": 25.244,
       "eval_steps_per_second": 25.244,
       "step": 1050
     }
   ],
   "logging_steps": 10,
@@ -1041,7 +1186,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.696323352857805e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 52.17391304347826,
   "eval_steps": 150,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.244,
       "eval_steps_per_second": 25.244,
       "step": 1050
+    },
+    {
+      "epoch": 46.08695652173913,
+      "grad_norm": 1.668047308921814,
+      "learning_rate": 1.130734941385923e-05,
+      "loss": 0.4905,
+      "step": 1060
+    },
+    {
+      "epoch": 46.52173913043478,
+      "grad_norm": 1.8213101625442505,
+      "learning_rate": 1.1307334847763571e-05,
+      "loss": 0.4654,
+      "step": 1070
+    },
+    {
+      "epoch": 46.95652173913044,
+      "grad_norm": 1.7041969299316406,
+      "learning_rate": 1.1307318040745661e-05,
+      "loss": 0.4089,
+      "step": 1080
+    },
+    {
+      "epoch": 47.391304347826086,
+      "grad_norm": 1.9170663356781006,
+      "learning_rate": 1.1307298992812163e-05,
+      "loss": 0.4169,
+      "step": 1090
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 1.3400579690933228,
+      "learning_rate": 1.1307277703970627e-05,
+      "loss": 0.4451,
+      "step": 1100
+    },
+    {
+      "epoch": 48.26086956521739,
+      "grad_norm": 1.8620245456695557,
+      "learning_rate": 1.1307254174229492e-05,
+      "loss": 0.4606,
+      "step": 1110
+    },
+    {
+      "epoch": 48.69565217391305,
+      "grad_norm": 1.4493643045425415,
+      "learning_rate": 1.1307228403598083e-05,
+      "loss": 0.3842,
+      "step": 1120
+    },
+    {
+      "epoch": 49.130434782608695,
+      "grad_norm": 1.5963612794876099,
+      "learning_rate": 1.1307200392086617e-05,
+      "loss": 0.5088,
+      "step": 1130
+    },
+    {
+      "epoch": 49.56521739130435,
+      "grad_norm": 1.0860666036605835,
+      "learning_rate": 1.1307170139706193e-05,
+      "loss": 0.4661,
+      "step": 1140
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 2.400817632675171,
+      "learning_rate": 1.1307137646468805e-05,
+      "loss": 0.3732,
+      "step": 1150
+    },
+    {
+      "epoch": 50.43478260869565,
+      "grad_norm": 1.2243698835372925,
+      "learning_rate": 1.130710291238733e-05,
+      "loss": 0.3852,
+      "step": 1160
+    },
+    {
+      "epoch": 50.869565217391305,
+      "grad_norm": 1.5243916511535645,
+      "learning_rate": 1.130706593747554e-05,
+      "loss": 0.4324,
+      "step": 1170
+    },
+    {
+      "epoch": 51.30434782608695,
+      "grad_norm": 1.778385877609253,
+      "learning_rate": 1.1307026721748087e-05,
+      "loss": 0.45,
+      "step": 1180
+    },
+    {
+      "epoch": 51.73913043478261,
+      "grad_norm": 1.0479800701141357,
+      "learning_rate": 1.1306985265220515e-05,
+      "loss": 0.3661,
+      "step": 1190
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 2.22280216217041,
+      "learning_rate": 1.1306941567909254e-05,
+      "loss": 0.518,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7372099161148071,
+      "eval_runtime": 0.5807,
+      "eval_samples_per_second": 17.222,
+      "eval_steps_per_second": 17.222,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.8616224527359009,
+      "eval_runtime": 0.4577,
+      "eval_samples_per_second": 21.848,
+      "eval_steps_per_second": 21.848,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7372099161148071,
+      "eval_runtime": 0.4574,
+      "eval_samples_per_second": 21.862,
+      "eval_steps_per_second": 21.862,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.7205449938774109,
+      "eval_runtime": 0.4458,
+      "eval_samples_per_second": 22.433,
+      "eval_steps_per_second": 22.433,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.8604005575180054,
+      "eval_runtime": 0.4457,
+      "eval_samples_per_second": 22.437,
+      "eval_steps_per_second": 22.437,
+      "step": 1200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.076671992345395e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null