Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9397f132a6123749318f2cec2de3795c2cecb21b04af496e60060bdf559d882
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:315dd3d1be5cd5aad93e16d6cfd64f1bb9fe3d28b4bf1a28890a1a22e06b4268
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c4d354f40628a2bf76efa3fc41baf5125cffd8c92ac7a1e648705f2d017dfe1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2aded1500c0a4e0686d69b68e13b1d801287a27d997750ae1545e6654570347
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c628fd47930868a3626bfd463d6fa585c5249cd4b2ad88dfb998ebdaeffc2454
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:448b3e60abf19a367f627475ea9fd93123102153c10bf14e51ba3e6e1e24bd8e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b542bbc256ffe03bc3de81e397affacfdab8368eb5fbeffaeab7a4d3289a6f9f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:11165328e3ed53c81315a2b3c898e1767b47d1d7722e15ceb97f24911d09fdce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2032385915517807,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-3500",
-  "epoch": 2.4587284861257466,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -777,6 +777,116 @@
       "eval_samples_per_second": 66.548,
       "eval_steps_per_second": 2.089,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -796,7 +906,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.40970746871808e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.20224925875663757,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-4000",
+  "epoch": 2.8099754127151386,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.548,
       "eval_steps_per_second": 2.089,
       "step": 3500
+    },
+    {
+      "epoch": 2.493853178784686,
+      "grad_norm": 23787.681640625,
+      "learning_rate": 1.128952916373858e-05,
+      "loss": 0.1984,
+      "step": 3550
+    },
+    {
+      "epoch": 2.528977871443625,
+      "grad_norm": 24526.529296875,
+      "learning_rate": 1.1026001405481377e-05,
+      "loss": 0.1971,
+      "step": 3600
+    },
+    {
+      "epoch": 2.528977871443625,
+      "eval_loss": 0.20272360742092133,
+      "eval_runtime": 66.8824,
+      "eval_samples_per_second": 66.684,
+      "eval_steps_per_second": 2.093,
+      "step": 3600
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 23948.60546875,
+      "learning_rate": 1.0762473647224174e-05,
+      "loss": 0.1904,
+      "step": 3650
+    },
+    {
+      "epoch": 2.5992272567615036,
+      "grad_norm": 17924.513671875,
+      "learning_rate": 1.0498945888966972e-05,
+      "loss": 0.1968,
+      "step": 3700
+    },
+    {
+      "epoch": 2.5992272567615036,
+      "eval_loss": 0.20258785784244537,
+      "eval_runtime": 67.0213,
+      "eval_samples_per_second": 66.546,
+      "eval_steps_per_second": 2.089,
+      "step": 3700
+    },
+    {
+      "epoch": 2.6343519494204424,
+      "grad_norm": 18695.21875,
+      "learning_rate": 1.0235418130709768e-05,
+      "loss": 0.1961,
+      "step": 3750
+    },
+    {
+      "epoch": 2.669476642079382,
+      "grad_norm": 23424.083984375,
+      "learning_rate": 9.971890372452565e-06,
+      "loss": 0.1961,
+      "step": 3800
+    },
+    {
+      "epoch": 2.669476642079382,
+      "eval_loss": 0.2024257928133011,
+      "eval_runtime": 67.1877,
+      "eval_samples_per_second": 66.381,
+      "eval_steps_per_second": 2.084,
+      "step": 3800
+    },
+    {
+      "epoch": 2.704601334738321,
+      "grad_norm": 18417.158203125,
+      "learning_rate": 9.708362614195362e-06,
+      "loss": 0.2004,
+      "step": 3850
+    },
+    {
+      "epoch": 2.73972602739726,
+      "grad_norm": 29204.578125,
+      "learning_rate": 9.444834855938158e-06,
+      "loss": 0.2,
+      "step": 3900
+    },
+    {
+      "epoch": 2.73972602739726,
+      "eval_loss": 0.20261028409004211,
+      "eval_runtime": 67.145,
+      "eval_samples_per_second": 66.423,
+      "eval_steps_per_second": 2.085,
+      "step": 3900
+    },
+    {
+      "epoch": 2.7748507200561994,
+      "grad_norm": 22810.859375,
+      "learning_rate": 9.181307097680956e-06,
+      "loss": 0.1955,
+      "step": 3950
+    },
+    {
+      "epoch": 2.8099754127151386,
+      "grad_norm": 20385.189453125,
+      "learning_rate": 8.917779339423753e-06,
+      "loss": 0.1902,
+      "step": 4000
+    },
+    {
+      "epoch": 2.8099754127151386,
+      "eval_loss": 0.20224925875663757,
+      "eval_runtime": 66.8567,
+      "eval_samples_per_second": 66.71,
+      "eval_steps_per_second": 2.094,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.89687378116608e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null