Training in progress, step 22000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46faaddaed72c5d090165795ebfd05b22b125c42c26c4875edbc091a5e362e43
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b24490e1afd177c9d7aa64e2bc93a14c723f2b07f34c096656faca30a819b31
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:035583387e98c556efc70cb4c61a29b96c0d5a81f688d104a9d1131166859bd1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cb51a493e883d2bba3783d9a9c610f4b7ed8a2fdbc2ae094434c3938af33f10
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4dd066f1fef3b26a8b4d2763e6247adb5ad5bebee331f997006d84e56e797cb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:75610a62f0c2e3c2144553b21cd56625818792160128bd8489e6566f2e9cc991
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ed9e6e0ddb2712997439a77e00b8aab494233fbe2995e22f0fcce2c0862afad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:16420615b82a27af4c6aa0fff49c44fb5eed4e6ef5c3ebd2f44a0387c672c1ca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.0817028358578682,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-21000",
-  "epoch": 1.72,
   "eval_steps": 500,
-  "global_step": 21500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3361,6 +3361,84 @@
       "eval_samples_per_second": 22.713,
       "eval_steps_per_second": 5.678,
       "step": 21500
     }
   ],
   "logging_steps": 50,
@@ -3380,7 +3458,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.237037858816e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08166228979825974,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-22000",
+  "epoch": 1.76,
   "eval_steps": 500,
+  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.713,
       "eval_steps_per_second": 5.678,
       "step": 21500
+    },
+    {
+      "epoch": 1.724,
+      "grad_norm": 0.14097870886325836,
+      "learning_rate": 4.1472e-06,
+      "loss": 0.0488,
+      "step": 21550
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.1706978976726532,
+      "learning_rate": 4.0872000000000004e-06,
+      "loss": 0.0496,
+      "step": 21600
+    },
+    {
+      "epoch": 1.732,
+      "grad_norm": 0.14371682703495026,
+      "learning_rate": 4.0272e-06,
+      "loss": 0.0557,
+      "step": 21650
+    },
+    {
+      "epoch": 1.736,
+      "grad_norm": 0.1176629364490509,
+      "learning_rate": 3.9672e-06,
+      "loss": 0.0531,
+      "step": 21700
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 0.17272049188613892,
+      "learning_rate": 3.9072e-06,
+      "loss": 0.0604,
+      "step": 21750
+    },
+    {
+      "epoch": 1.744,
+      "grad_norm": 0.15085135400295258,
+      "learning_rate": 3.8472e-06,
+      "loss": 0.0537,
+      "step": 21800
+    },
+    {
+      "epoch": 1.748,
+      "grad_norm": 0.11613863706588745,
+      "learning_rate": 3.7884e-06,
+      "loss": 0.0544,
+      "step": 21850
+    },
+    {
+      "epoch": 1.752,
+      "grad_norm": 0.13247713446617126,
+      "learning_rate": 3.7284e-06,
+      "loss": 0.0556,
+      "step": 21900
+    },
+    {
+      "epoch": 1.756,
+      "grad_norm": 0.1755180060863495,
+      "learning_rate": 3.6684e-06,
+      "loss": 0.0563,
+      "step": 21950
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.07918363809585571,
+      "learning_rate": 3.6084e-06,
+      "loss": 0.0508,
+      "step": 22000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.08166228979825974,
+      "eval_runtime": 88.0895,
+      "eval_samples_per_second": 22.704,
+      "eval_steps_per_second": 5.676,
+      "step": 22000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.358829436928e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null