Training in progress, step 19000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9f8e1e9f015d9568bf75922d777d726b01fb6e502bd445c08094a91f28ae1a8
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:66b6ab3ff42b2cdf0354b7f70bd9a1a4076a91b639655aef18c9e1ddc6f4867c
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01ffcfafbc1c4522f01ae60dab6db775fcdcd8fec900d37f15a5127a63ce98b4
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fa8b871e21aa935f37782ccd210ed25bd8f9e62b08ef3de2bd22cc4ef35b1df
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6769e966cbd01b0928c6dfa08d9183af00ab69c61a86a4a6ef846a74f2cd4f12
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd0f95a80e92c03f24f22ba71db4680031a4c2ab72b3c821c67aa452d49e368d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88eb0259375aeb4797384085a6556dffb88f3f28e3b811d250261aef798e28f2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a24b364686c3a4df0863387bf61d379d6122e40cd9c6c72454e7921c0155ca34
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.0821109265089035,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-17500",
-  "epoch": 1.48,
   "eval_steps": 500,
-  "global_step": 18500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2893,6 +2893,84 @@
       "eval_samples_per_second": 22.709,
       "eval_steps_per_second": 5.677,
       "step": 18500
     }
   ],
   "logging_steps": 50,
@@ -2912,7 +2990,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.506288390144e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08186879754066467,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
+  "epoch": 1.52,
   "eval_steps": 500,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.709,
       "eval_steps_per_second": 5.677,
       "step": 18500
+    },
+    {
+      "epoch": 1.484,
+      "grad_norm": 0.13516181707382202,
+      "learning_rate": 7.7448e-06,
+      "loss": 0.0516,
+      "step": 18550
+    },
+    {
+      "epoch": 1.488,
+      "grad_norm": 0.14996372163295746,
+      "learning_rate": 7.6848e-06,
+      "loss": 0.0545,
+      "step": 18600
+    },
+    {
+      "epoch": 1.492,
+      "grad_norm": 0.11676355451345444,
+      "learning_rate": 7.6248e-06,
+      "loss": 0.0546,
+      "step": 18650
+    },
+    {
+      "epoch": 1.496,
+      "grad_norm": 0.0986240953207016,
+      "learning_rate": 7.5648e-06,
+      "loss": 0.054,
+      "step": 18700
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.16591283679008484,
+      "learning_rate": 7.5048e-06,
+      "loss": 0.0554,
+      "step": 18750
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 0.13870297372341156,
+      "learning_rate": 7.4448e-06,
+      "loss": 0.0486,
+      "step": 18800
+    },
+    {
+      "epoch": 1.508,
+      "grad_norm": 0.1334107369184494,
+      "learning_rate": 7.3848e-06,
+      "loss": 0.0532,
+      "step": 18850
+    },
+    {
+      "epoch": 1.512,
+      "grad_norm": 0.1280679702758789,
+      "learning_rate": 7.3248e-06,
+      "loss": 0.0543,
+      "step": 18900
+    },
+    {
+      "epoch": 1.516,
+      "grad_norm": 0.08572965115308762,
+      "learning_rate": 7.2647999999999995e-06,
+      "loss": 0.0516,
+      "step": 18950
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.10845118761062622,
+      "learning_rate": 7.204800000000001e-06,
+      "loss": 0.0554,
+      "step": 19000
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.08186879754066467,
+      "eval_runtime": 88.0768,
+      "eval_samples_per_second": 22.707,
+      "eval_steps_per_second": 5.677,
+      "step": 19000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.628079968256e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null