Training in progress, step 2100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +164 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72b8d7d88a2599f3d0270503aadee3e06f3c9b6208ea859e85195d0628820e39
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:a11ea4246169d4ba1b9cdfd1ec7ef840b6b697d514813efd0057d57657a9241f
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26b63f4c5630f0eb1aa59baba3bed13a06e5c96c5aaf91324d7334f99b4a5840
 size 1313638993

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bff2dd91c1612009877ee3b54bb35e744dcc95587bcbfa8944d30b0c5da6f76
 size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c361866728e06bd0e2be39ee57f57e760047eda537fd1611fa8102f0d74137f
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:f78d4bac68df9071c97615b2e87cf8d0471f01b17ef6d500cfcd39134f131824
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df14d7a36e37f366debe04e21edb22ea251f3e688d5c13d68e7aade0c9008374
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc99556bf27209385963813e3570510732839e6002d61d657266050e280a33eb
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4433ec275386d9bd6536dd57fdfec5f80c2cb4e78ff122cfbe81518b1380578
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d4ff6faba9116c06367ce60af1ab0ce82d05c5571557409e66e7e9ab509c55a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7484,
   "eval_steps": 500,
-  "global_step": 1871,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1324,6 +1324,167 @@
       "learning_rate": 7.746618656487748e-06,
       "loss": 3.1418,
       "step": 1870
     }
   ],
   "logging_steps": 10,
@@ -1343,7 +1504,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.796307512390451e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.84,
   "eval_steps": 500,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.746618656487748e-06,
       "loss": 3.1418,
       "step": 1870
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 13.42601490020752,
+      "learning_rate": 7.516052717806346e-06,
+      "loss": 3.0495,
+      "step": 1880
+    },
+    {
+      "epoch": 0.756,
+      "grad_norm": 10.328361511230469,
+      "learning_rate": 7.288361535953472e-06,
+      "loss": 3.2537,
+      "step": 1890
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 8.320837020874023,
+      "learning_rate": 7.06358254851513e-06,
+      "loss": 3.2002,
+      "step": 1900
+    },
+    {
+      "epoch": 0.764,
+      "grad_norm": 12.367525100708008,
+      "learning_rate": 6.841752714246588e-06,
+      "loss": 3.415,
+      "step": 1910
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 8.72415828704834,
+      "learning_rate": 6.622908506995581e-06,
+      "loss": 2.7481,
+      "step": 1920
+    },
+    {
+      "epoch": 0.772,
+      "grad_norm": 9.888436317443848,
+      "learning_rate": 6.407085909705157e-06,
+      "loss": 3.4815,
+      "step": 1930
+    },
+    {
+      "epoch": 0.776,
+      "grad_norm": 7.541075706481934,
+      "learning_rate": 6.194320408497245e-06,
+      "loss": 3.4048,
+      "step": 1940
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 11.171248435974121,
+      "learning_rate": 5.98464698683798e-06,
+      "loss": 3.5409,
+      "step": 1950
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 9.28205394744873,
+      "learning_rate": 5.778100119785587e-06,
+      "loss": 3.1082,
+      "step": 1960
+    },
+    {
+      "epoch": 0.788,
+      "grad_norm": 8.433388710021973,
+      "learning_rate": 5.5747137683219404e-06,
+      "loss": 2.9565,
+      "step": 1970
+    },
+    {
+      "epoch": 0.792,
+      "grad_norm": 14.938470840454102,
+      "learning_rate": 5.374521373768549e-06,
+      "loss": 3.2282,
+      "step": 1980
+    },
+    {
+      "epoch": 0.796,
+      "grad_norm": 9.903738975524902,
+      "learning_rate": 5.177555852288119e-06,
+      "loss": 2.9652,
+      "step": 1990
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 13.002461433410645,
+      "learning_rate": 4.983849589472348e-06,
+      "loss": 3.221,
+      "step": 2000
+    },
+    {
+      "epoch": 0.804,
+      "grad_norm": 12.107378005981445,
+      "learning_rate": 4.793434435016986e-06,
+      "loss": 3.1341,
+      "step": 2010
+    },
+    {
+      "epoch": 0.808,
+      "grad_norm": 11.94257640838623,
+      "learning_rate": 4.606341697485087e-06,
+      "loss": 3.318,
+      "step": 2020
+    },
+    {
+      "epoch": 0.812,
+      "grad_norm": 10.116772651672363,
+      "learning_rate": 4.422602139159091e-06,
+      "loss": 3.2286,
+      "step": 2030
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 10.068933486938477,
+      "learning_rate": 4.242245970982883e-06,
+      "loss": 3.306,
+      "step": 2040
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 10.280326843261719,
+      "learning_rate": 4.065302847594369e-06,
+      "loss": 3.005,
+      "step": 2050
+    },
+    {
+      "epoch": 0.824,
+      "grad_norm": 10.214073181152344,
+      "learning_rate": 3.891801862449629e-06,
+      "loss": 2.9953,
+      "step": 2060
+    },
+    {
+      "epoch": 0.828,
+      "grad_norm": 12.787151336669922,
+      "learning_rate": 3.721771543039254e-06,
+      "loss": 2.9877,
+      "step": 2070
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 7.119079113006592,
+      "learning_rate": 3.5552398461978277e-06,
+      "loss": 3.0851,
+      "step": 2080
+    },
+    {
+      "epoch": 0.836,
+      "grad_norm": 6.1061177253723145,
+      "learning_rate": 3.3922341535071483e-06,
+      "loss": 2.9198,
+      "step": 2090
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 9.866963386535645,
+      "learning_rate": 3.23278126679408e-06,
+      "loss": 2.9846,
+      "step": 2100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.87292665741312e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:080c92b0b23413891b2d4ebcb1839000b2c36abcd2fdfcebc49b922f27c9f1dd
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:05c569cc64e00d104bb20e5faf64d881762c6e72e491347da68f267c7d4d9dc2
 size 5841