Training in progress, step 714, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ab2986e69624e622096aab328ef20778587626cab78a308484e77c04209819
 size 310662536

 version https://git-lfs.github.com/spec/v1
+oid sha256:294e8fe234cd6d1f59b14c1140e50fdbdb90a57220e6173c48a127e84e49c4e8
 size 310662536

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5115b34b8603ed8f6633b921855aa63724e8ce7221c16e97f80b58a14075229
 size 162452055

 version https://git-lfs.github.com/spec/v1
+oid sha256:31fca9108c676adcfdd8ed80962605abd4605ab61e005b4a771e012d23b1c627
 size 162452055

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:850c3d909f8a0af6f9b431fac5a25833ab1658c39f899825e3b347b6af8a490b
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb52ddc7b4d4702afb8bac65566641a27c974b1518c3f2f4987cdc6cc976a909
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af8f5e8caef6c235c2a73a42bf19f55da6d027796053c084f7bda2a06e133e53
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e5d5ca4d0f7bab3012c2ed7b0a337ccf31a6ebdeb831e6c0b5b1e71cabedc08
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9810791871058164,
   "eval_steps": 500,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4908,6 +4908,104 @@
       "learning_rate": 4.2313117066290545e-06,
       "loss": 0.5183,
       "step": 700
     }
   ],
   "logging_steps": 1,
@@ -4922,12 +5020,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.040071266760909e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 714,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.2313117066290545e-06,
       "loss": 0.5183,
       "step": 700
+    },
+    {
+      "epoch": 0.9824807288016818,
+      "grad_norm": 1.2964062690734863,
+      "learning_rate": 3.949224259520452e-06,
+      "loss": 0.45,
+      "step": 701
+    },
+    {
+      "epoch": 0.9838822704975473,
+      "grad_norm": 1.2322115898132324,
+      "learning_rate": 3.667136812411848e-06,
+      "loss": 0.3094,
+      "step": 702
+    },
+    {
+      "epoch": 0.9852838121934128,
+      "grad_norm": 1.0808106660842896,
+      "learning_rate": 3.3850493653032446e-06,
+      "loss": 0.2605,
+      "step": 703
+    },
+    {
+      "epoch": 0.9866853538892782,
+      "grad_norm": 1.4192579984664917,
+      "learning_rate": 3.1029619181946405e-06,
+      "loss": 0.3415,
+      "step": 704
+    },
+    {
+      "epoch": 0.9880868955851436,
+      "grad_norm": 1.0820287466049194,
+      "learning_rate": 2.8208744710860367e-06,
+      "loss": 0.2336,
+      "step": 705
+    },
+    {
+      "epoch": 0.9894884372810091,
+      "grad_norm": 1.4534846544265747,
+      "learning_rate": 2.538787023977433e-06,
+      "loss": 0.4909,
+      "step": 706
+    },
+    {
+      "epoch": 0.9908899789768746,
+      "grad_norm": 1.3459112644195557,
+      "learning_rate": 2.2566995768688293e-06,
+      "loss": 0.3371,
+      "step": 707
+    },
+    {
+      "epoch": 0.9922915206727401,
+      "grad_norm": 1.2415499687194824,
+      "learning_rate": 1.974612129760226e-06,
+      "loss": 0.2859,
+      "step": 708
+    },
+    {
+      "epoch": 0.9936930623686054,
+      "grad_norm": 1.022193431854248,
+      "learning_rate": 1.6925246826516223e-06,
+      "loss": 0.3233,
+      "step": 709
+    },
+    {
+      "epoch": 0.9950946040644709,
+      "grad_norm": 1.0108222961425781,
+      "learning_rate": 1.4104372355430184e-06,
+      "loss": 0.2245,
+      "step": 710
+    },
+    {
+      "epoch": 0.9964961457603364,
+      "grad_norm": 1.4070162773132324,
+      "learning_rate": 1.1283497884344147e-06,
+      "loss": 0.4077,
+      "step": 711
+    },
+    {
+      "epoch": 0.9978976874562018,
+      "grad_norm": 1.2831224203109741,
+      "learning_rate": 8.462623413258111e-07,
+      "loss": 0.4383,
+      "step": 712
+    },
+    {
+      "epoch": 0.9992992291520673,
+      "grad_norm": 1.686324119567871,
+      "learning_rate": 5.641748942172073e-07,
+      "loss": 0.5735,
+      "step": 713
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.848501205444336,
+      "learning_rate": 2.8208744710860366e-07,
+      "loss": 0.429,
+      "step": 714
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.19498707616338e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null