Training in progress, step 5000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0673723b6fea73b97632e58ff883b0fcedfe7c681e3b064768751625f89426b0
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccdc97af0c664a598630c782a7b331756b66dbb34a0f09170e5fc260495d1b53
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6a5cfafd84b1b27fd2b7eb7cde6b07d68bac4292ccc06119a3b5fcbffec4d1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e5a38645e0ad06e7337b8afd1b8688354e44665215d46144294c375e1b14ec6
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b65d52be0a01d1387b6ab5b94c8d85e39f197ebf9d2ff39d8953e7c1331a8faf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f750e8c47e9e6edd21fa1108074fa273b123ea44b89fc5876f119d3a8a4022f1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2af37ede7aaba01e654492d7c7cd23480899eab3274bf26dc98e9ba5f8aeadfb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e794023d937cb42e6b824ae46ca100bd6dbedd5057ac527c5cededbfc6fc3265
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.20200392603874207,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-4500",
-  "epoch": 3.161222339304531,
   "eval_steps": 100,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -997,6 +997,116 @@
       "eval_samples_per_second": 66.585,
       "eval_steps_per_second": 2.09,
       "step": 4500
     }
   ],
   "logging_steps": 50,
@@ -1016,7 +1126,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.38381173440512e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2013118416070938,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-5000",
+  "epoch": 3.512469265893923,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.585,
       "eval_steps_per_second": 2.09,
       "step": 4500
+    },
+    {
+      "epoch": 3.1963470319634704,
+      "grad_norm": 30103.6484375,
+      "learning_rate": 6.018973998594519e-06,
+      "loss": 0.1891,
+      "step": 4550
+    },
+    {
+      "epoch": 3.2314717246224096,
+      "grad_norm": 22014.908203125,
+      "learning_rate": 5.755446240337316e-06,
+      "loss": 0.1933,
+      "step": 4600
+    },
+    {
+      "epoch": 3.2314717246224096,
+      "eval_loss": 0.20177535712718964,
+      "eval_runtime": 66.8767,
+      "eval_samples_per_second": 66.69,
+      "eval_steps_per_second": 2.093,
+      "step": 4600
+    },
+    {
+      "epoch": 3.266596417281349,
+      "grad_norm": 24894.115234375,
+      "learning_rate": 5.491918482080113e-06,
+      "loss": 0.1921,
+      "step": 4650
+    },
+    {
+      "epoch": 3.301721109940288,
+      "grad_norm": 21648.677734375,
+      "learning_rate": 5.2283907238229096e-06,
+      "loss": 0.1914,
+      "step": 4700
+    },
+    {
+      "epoch": 3.301721109940288,
+      "eval_loss": 0.20187227427959442,
+      "eval_runtime": 66.9001,
+      "eval_samples_per_second": 66.667,
+      "eval_steps_per_second": 2.093,
+      "step": 4700
+    },
+    {
+      "epoch": 3.3368458025992274,
+      "grad_norm": 24555.294921875,
+      "learning_rate": 4.964862965565706e-06,
+      "loss": 0.1914,
+      "step": 4750
+    },
+    {
+      "epoch": 3.3719704952581666,
+      "grad_norm": 44338.69921875,
+      "learning_rate": 4.7013352073085035e-06,
+      "loss": 0.1936,
+      "step": 4800
+    },
+    {
+      "epoch": 3.3719704952581666,
+      "eval_loss": 0.20171089470386505,
+      "eval_runtime": 67.0479,
+      "eval_samples_per_second": 66.52,
+      "eval_steps_per_second": 2.088,
+      "step": 4800
+    },
+    {
+      "epoch": 3.407095187917106,
+      "grad_norm": 23296.537109375,
+      "learning_rate": 4.4378074490513e-06,
+      "loss": 0.1949,
+      "step": 4850
+    },
+    {
+      "epoch": 3.442219880576045,
+      "grad_norm": 21337.087890625,
+      "learning_rate": 4.1742796907940974e-06,
+      "loss": 0.1902,
+      "step": 4900
+    },
+    {
+      "epoch": 3.442219880576045,
+      "eval_loss": 0.20151035487651825,
+      "eval_runtime": 66.9445,
+      "eval_samples_per_second": 66.622,
+      "eval_steps_per_second": 2.091,
+      "step": 4900
+    },
+    {
+      "epoch": 3.4773445732349844,
+      "grad_norm": 20258.736328125,
+      "learning_rate": 3.910751932536894e-06,
+      "loss": 0.1966,
+      "step": 4950
+    },
+    {
+      "epoch": 3.512469265893923,
+      "grad_norm": 22937.763671875,
+      "learning_rate": 3.647224174279691e-06,
+      "loss": 0.1949,
+      "step": 5000
+    },
+    {
+      "epoch": 3.512469265893923,
+      "eval_loss": 0.2013118416070938,
+      "eval_runtime": 67.0166,
+      "eval_samples_per_second": 66.551,
+      "eval_steps_per_second": 2.089,
+      "step": 5000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.87097804685312e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null