Training in progress, step 14500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9704e41640d7704f052e32113e34a80ebd155dba2fd8f3a818c35af9ef8e5e5
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:054ab94a66b126df267b052c3963349825d38029b9947a5eeef3e088fc94d5e3
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38547c985ce9b90055e73bc70569507cc2022f06756bda43feaaa7134440ed4a
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:c700b2458cc3a7d705b174e5b082b75ff9b46e4556e47eb6bc98ed85f7b5b362
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f2249892101c67b7f09df7f3b33fbce8ad4fc7b712e0895251ba03419a8b657
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c9886b9061bb2e70af0da0a78b4bba065bbf4e416078705ff5fff6c95adfc84
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dd16cd3f7a9b47079af7541224a232c825207a9e0cc8410dcba6e13de89ef34
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6ce624ffb18558fd63335de21c66bfccbf585f56176b1bb9297748553d5fb95
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0824647843837738,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
-  "epoch": 1.12,
   "eval_steps": 500,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2191,6 +2191,84 @@
       "eval_samples_per_second": 22.715,
       "eval_steps_per_second": 5.679,
       "step": 14000
     }
   ],
   "logging_steps": 50,
@@ -2210,7 +2288,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.410164187136e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0824647843837738,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
+  "epoch": 1.16,
   "eval_steps": 500,
+  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.715,
       "eval_steps_per_second": 5.679,
       "step": 14000
+    },
+    {
+      "epoch": 1.124,
+      "grad_norm": 0.17533883452415466,
+      "learning_rate": 1.31436e-05,
+      "loss": 0.0552,
+      "step": 14050
+    },
+    {
+      "epoch": 1.1280000000000001,
+      "grad_norm": 0.10817945748567581,
+      "learning_rate": 1.3083600000000001e-05,
+      "loss": 0.049,
+      "step": 14100
+    },
+    {
+      "epoch": 1.1320000000000001,
+      "grad_norm": 0.09337913990020752,
+      "learning_rate": 1.30236e-05,
+      "loss": 0.0573,
+      "step": 14150
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "grad_norm": 0.15710942447185516,
+      "learning_rate": 1.29636e-05,
+      "loss": 0.0605,
+      "step": 14200
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "grad_norm": 0.10915792733430862,
+      "learning_rate": 1.29036e-05,
+      "loss": 0.0581,
+      "step": 14250
+    },
+    {
+      "epoch": 1.144,
+      "grad_norm": 0.10125772655010223,
+      "learning_rate": 1.28436e-05,
+      "loss": 0.0599,
+      "step": 14300
+    },
+    {
+      "epoch": 1.148,
+      "grad_norm": 0.0998956710100174,
+      "learning_rate": 1.27836e-05,
+      "loss": 0.0479,
+      "step": 14350
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.13762612640857697,
+      "learning_rate": 1.27236e-05,
+      "loss": 0.0589,
+      "step": 14400
+    },
+    {
+      "epoch": 1.156,
+      "grad_norm": 0.11048023402690887,
+      "learning_rate": 1.26636e-05,
+      "loss": 0.0591,
+      "step": 14450
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.14803436398506165,
+      "learning_rate": 1.26036e-05,
+      "loss": 0.0553,
+      "step": 14500
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.08270228654146194,
+      "eval_runtime": 88.0514,
+      "eval_samples_per_second": 22.714,
+      "eval_steps_per_second": 5.678,
+      "step": 14500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.531955765248e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null