Training in progress, epoch 2, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a4c6f5313c5413e947c3b9ae8fbdcd3db5cfb17ae9d38f3845a0d90a0a99de4
 size 2708729576

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c679b10aa2b443874b6a9292e3aae512f5bccabe564b7ded414ea66831aa3f8
 size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9bcb9d383cd758daed3e9bdac436feaaa8ace4983afd451ce084e4618839ef
 size 52499200

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac2bb89e904aedd054556f139faebaa82a167ab945f6753087d8528f8a3a6120
 size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b35b4cd4104958a3e34a87e84eee852763c80157fefbeae8abd4d6ed6ea94168
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:049c51626ff833ffb21f7771468093aef482329a954eee51e7f93ee61f521bdf
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bca4dbe650e04bc8012dd3f1938dfb2a637329721abd75c3bd59d28a64007b54
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e8b7bfccb9c07860bceffabef3a52060cc451a19d3abd90d284c09f7120dba6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 50,
-  "global_step": 129,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -35,6 +35,48 @@
       "eval_samples_per_second": 21.847,
       "eval_steps_per_second": 5.462,
       "step": 100
     }
   ],
   "logging_steps": 50,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 50,
+  "global_step": 258,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.847,
       "eval_steps_per_second": 5.462,
       "step": 100
+    },
+    {
+      "epoch": 1.16398243045388,
+      "grad_norm": 502497.4375,
+      "learning_rate": 8.828125000000001e-05,
+      "loss": 3495.4003,
+      "step": 150
+    },
+    {
+      "epoch": 1.16398243045388,
+      "eval_runtime": 19.7678,
+      "eval_samples_per_second": 21.854,
+      "eval_steps_per_second": 5.463,
+      "step": 150
+    },
+    {
+      "epoch": 1.5544167886774036,
+      "grad_norm": 733164.8125,
+      "learning_rate": 8.4375e-05,
+      "loss": 3503.1944,
+      "step": 200
+    },
+    {
+      "epoch": 1.5544167886774036,
+      "eval_runtime": 19.8051,
+      "eval_samples_per_second": 21.813,
+      "eval_steps_per_second": 5.453,
+      "step": 200
+    },
+    {
+      "epoch": 1.9448511469009273,
+      "grad_norm": 385944.6875,
+      "learning_rate": 8.046875e-05,
+      "loss": 2722.6881,
+      "step": 250
+    },
+    {
+      "epoch": 1.9448511469009273,
+      "eval_runtime": 19.7807,
+      "eval_samples_per_second": 21.839,
+      "eval_steps_per_second": 5.46,
+      "step": 250
     }
   ],
   "logging_steps": 50,