Training in progress, step 21500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a93f403a198a0abf134a3fd5cbeca3aa8c16276f10e0b35daa2bc2bf8a2a6957
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:46faaddaed72c5d090165795ebfd05b22b125c42c26c4875edbc091a5e362e43
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18372560aadc54215809cfae0eaf7225bb168ffc940aa3b172c422f28f9cfff5
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:035583387e98c556efc70cb4c61a29b96c0d5a81f688d104a9d1131166859bd1
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d9c5f7443e1222c25c8a224aeec2cab3e754343ab09e424a8f337440ada3c79
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4dd066f1fef3b26a8b4d2763e6247adb5ad5bebee331f997006d84e56e797cb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67a88db37888ba561bfce26ae8fef54113ba48b68f86826f4ed7d7cb198ed4fd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ed9e6e0ddb2712997439a77e00b8aab494233fbe2995e22f0fcce2c0862afad
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0817028358578682,
   "best_model_checkpoint": "./fine-tuned/checkpoint-21000",
-  "epoch": 1.6800000000000002,
   "eval_steps": 500,
-  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3283,6 +3283,84 @@
       "eval_samples_per_second": 22.702,
       "eval_steps_per_second": 5.676,
       "step": 21000
     }
   ],
   "logging_steps": 50,
@@ -3302,7 +3380,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.115246280704e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0817028358578682,
   "best_model_checkpoint": "./fine-tuned/checkpoint-21000",
+  "epoch": 1.72,
   "eval_steps": 500,
+  "global_step": 21500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.702,
       "eval_steps_per_second": 5.676,
       "step": 21000
+    },
+    {
+      "epoch": 1.6840000000000002,
+      "grad_norm": 0.1464158296585083,
+      "learning_rate": 4.7472e-06,
+      "loss": 0.0557,
+      "step": 21050
+    },
+    {
+      "epoch": 1.688,
+      "grad_norm": 0.1558839976787567,
+      "learning_rate": 4.6872e-06,
+      "loss": 0.0527,
+      "step": 21100
+    },
+    {
+      "epoch": 1.692,
+      "grad_norm": 0.093449167907238,
+      "learning_rate": 4.6271999999999995e-06,
+      "loss": 0.0544,
+      "step": 21150
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 0.1413930058479309,
+      "learning_rate": 4.5672e-06,
+      "loss": 0.0571,
+      "step": 21200
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.19774900376796722,
+      "learning_rate": 4.507200000000001e-06,
+      "loss": 0.0474,
+      "step": 21250
+    },
+    {
+      "epoch": 1.704,
+      "grad_norm": 0.092808298766613,
+      "learning_rate": 4.4472e-06,
+      "loss": 0.05,
+      "step": 21300
+    },
+    {
+      "epoch": 1.708,
+      "grad_norm": 0.09530337899923325,
+      "learning_rate": 4.3872e-06,
+      "loss": 0.0564,
+      "step": 21350
+    },
+    {
+      "epoch": 1.712,
+      "grad_norm": 0.1850968301296234,
+      "learning_rate": 4.327200000000001e-06,
+      "loss": 0.0541,
+      "step": 21400
+    },
+    {
+      "epoch": 1.716,
+      "grad_norm": 0.23416727781295776,
+      "learning_rate": 4.2672e-06,
+      "loss": 0.0576,
+      "step": 21450
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 0.11343374848365784,
+      "learning_rate": 4.2072e-06,
+      "loss": 0.0529,
+      "step": 21500
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.08182183653116226,
+      "eval_runtime": 88.0562,
+      "eval_samples_per_second": 22.713,
+      "eval_steps_per_second": 5.678,
+      "step": 21500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.237037858816e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null