Training in progress, step 11500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d578e67cefa0cbc87c4588c8c5826c14d9ecd5d9fbb6cb344342920af139033
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec779206cf54d6ec2f38c65a076b00fc932c67753a52bdb7f8e2048ec7b5aa72
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:178bbcd230b3578cd203d8ae6c2add9e74bb7aeabb94d447a3f70919fc0e8241
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa8d2bcba67d1c3e0e255eaa792d3f5d5d742e9420328ca489a27ffc5e297e
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b125975f9fae8190f9270b46403bcee0bbce4a754ced1327bdd16ba81bfb9533
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cdc0a7876cc40e108078f019affd5e2fa19bd7432063cc097ebdc6e0c9f6bc0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:224b826add4bdc720485795d14278c83b0b542b6e36e3b8f6419da3fb4a5e74d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:06badf22ccd7f837423b8b17ce3c2141862926d038c21fb5506d2929cbbb4d8f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08301527053117752,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
-  "epoch": 0.88,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1723,6 +1723,84 @@
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.678,
       "step": 11000
     }
   ],
   "logging_steps": 50,
@@ -1742,7 +1820,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.679414718464e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08293735980987549,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-11500",
+  "epoch": 0.92,
   "eval_steps": 500,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.678,
       "step": 11000
+    },
+    {
+      "epoch": 0.884,
+      "grad_norm": 0.22617511451244354,
+      "learning_rate": 1.67424e-05,
+      "loss": 0.066,
+      "step": 11050
+    },
+    {
+      "epoch": 0.888,
+      "grad_norm": 0.15583598613739014,
+      "learning_rate": 1.66824e-05,
+      "loss": 0.0663,
+      "step": 11100
+    },
+    {
+      "epoch": 0.892,
+      "grad_norm": 0.06502597779035568,
+      "learning_rate": 1.6622400000000002e-05,
+      "loss": 0.0611,
+      "step": 11150
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.1777944415807724,
+      "learning_rate": 1.6562400000000003e-05,
+      "loss": 0.0618,
+      "step": 11200
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.14777645468711853,
+      "learning_rate": 1.65024e-05,
+      "loss": 0.0616,
+      "step": 11250
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 0.1988598108291626,
+      "learning_rate": 1.64424e-05,
+      "loss": 0.0683,
+      "step": 11300
+    },
+    {
+      "epoch": 0.908,
+      "grad_norm": 0.16424456238746643,
+      "learning_rate": 1.63824e-05,
+      "loss": 0.0616,
+      "step": 11350
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 0.17275363206863403,
+      "learning_rate": 1.63224e-05,
+      "loss": 0.0603,
+      "step": 11400
+    },
+    {
+      "epoch": 0.916,
+      "grad_norm": 0.1208202987909317,
+      "learning_rate": 1.6262400000000002e-05,
+      "loss": 0.0623,
+      "step": 11450
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.12853899598121643,
+      "learning_rate": 1.62024e-05,
+      "loss": 0.0597,
+      "step": 11500
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.08293735980987549,
+      "eval_runtime": 88.063,
+      "eval_samples_per_second": 22.711,
+      "eval_steps_per_second": 5.678,
+      "step": 11500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.801206296576e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null