Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccdc97af0c664a598630c782a7b331756b66dbb34a0f09170e5fc260495d1b53
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aa3dfa629d6f0a4b00e9aa0db2fda3e9ab1e4c509f72b23ef5457288b2e474f
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e5a38645e0ad06e7337b8afd1b8688354e44665215d46144294c375e1b14ec6
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd9c7ab2e3359d64280354b30eccac6666a4328bc54eac0eee212a29f2aaf43c
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f750e8c47e9e6edd21fa1108074fa273b123ea44b89fc5876f119d3a8a4022f1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a194bef12ceeecc6ad10e9d032a837c1a3c1db13b2c2253686b43518ae42503
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e794023d937cb42e6b824ae46ca100bd6dbedd5057ac527c5cededbfc6fc3265
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f66a57bd394806719fb22948b621f468b035d0a2c7c49f5f8b90d526b96103c4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2013118416070938,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-5000",
-  "epoch": 3.512469265893923,
   "eval_steps": 100,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1107,6 +1107,116 @@
       "eval_samples_per_second": 66.551,
       "eval_steps_per_second": 2.089,
       "step": 5000
     }
   ],
   "logging_steps": 50,
@@ -1126,7 +1236,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.87097804685312e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.20129592716693878,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-5500",
+  "epoch": 3.8637161924833157,
   "eval_steps": 100,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.551,
       "eval_steps_per_second": 2.089,
       "step": 5000
+    },
+    {
+      "epoch": 3.547593958552863,
+      "grad_norm": 27274.357421875,
+      "learning_rate": 3.383696416022488e-06,
+      "loss": 0.1968,
+      "step": 5050
+    },
+    {
+      "epoch": 3.5827186512118017,
+      "grad_norm": 26782.548828125,
+      "learning_rate": 3.1201686577652844e-06,
+      "loss": 0.1878,
+      "step": 5100
+    },
+    {
+      "epoch": 3.5827186512118017,
+      "eval_loss": 0.20154449343681335,
+      "eval_runtime": 67.1325,
+      "eval_samples_per_second": 66.436,
+      "eval_steps_per_second": 2.085,
+      "step": 5100
+    },
+    {
+      "epoch": 3.6178433438707414,
+      "grad_norm": 18810.177734375,
+      "learning_rate": 2.8566408995080814e-06,
+      "loss": 0.1912,
+      "step": 5150
+    },
+    {
+      "epoch": 3.65296803652968,
+      "grad_norm": 26744.78515625,
+      "learning_rate": 2.593113141250879e-06,
+      "loss": 0.1975,
+      "step": 5200
+    },
+    {
+      "epoch": 3.65296803652968,
+      "eval_loss": 0.20147912204265594,
+      "eval_runtime": 67.0091,
+      "eval_samples_per_second": 66.558,
+      "eval_steps_per_second": 2.089,
+      "step": 5200
+    },
+    {
+      "epoch": 3.68809272918862,
+      "grad_norm": 23326.36328125,
+      "learning_rate": 2.3295853829936753e-06,
+      "loss": 0.1995,
+      "step": 5250
+    },
+    {
+      "epoch": 3.7232174218475587,
+      "grad_norm": 21197.091796875,
+      "learning_rate": 2.0660576247364723e-06,
+      "loss": 0.1894,
+      "step": 5300
+    },
+    {
+      "epoch": 3.7232174218475587,
+      "eval_loss": 0.20139345526695251,
+      "eval_runtime": 66.9887,
+      "eval_samples_per_second": 66.578,
+      "eval_steps_per_second": 2.09,
+      "step": 5300
+    },
+    {
+      "epoch": 3.758342114506498,
+      "grad_norm": 23258.3671875,
+      "learning_rate": 1.8025298664792693e-06,
+      "loss": 0.1941,
+      "step": 5350
+    },
+    {
+      "epoch": 3.793466807165437,
+      "grad_norm": 25702.90234375,
+      "learning_rate": 1.539002108222066e-06,
+      "loss": 0.1952,
+      "step": 5400
+    },
+    {
+      "epoch": 3.793466807165437,
+      "eval_loss": 0.20133435726165771,
+      "eval_runtime": 67.0042,
+      "eval_samples_per_second": 66.563,
+      "eval_steps_per_second": 2.089,
+      "step": 5400
+    },
+    {
+      "epoch": 3.8285914998243764,
+      "grad_norm": 22600.765625,
+      "learning_rate": 1.275474349964863e-06,
+      "loss": 0.1912,
+      "step": 5450
+    },
+    {
+      "epoch": 3.8637161924833157,
+      "grad_norm": 25134.44921875,
+      "learning_rate": 1.0119465917076597e-06,
+      "loss": 0.197,
+      "step": 5500
+    },
+    {
+      "epoch": 3.8637161924833157,
+      "eval_loss": 0.20129592716693878,
+      "eval_runtime": 67.1868,
+      "eval_samples_per_second": 66.382,
+      "eval_steps_per_second": 2.084,
+      "step": 5500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.35814435930112e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null