Training in progress, step 350, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b984dfd07820164946065ae23ca85bbdb9fd648664a601e3bf20a76b6d205e18
 size 1912664024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f55186aef0f4403758d9ce629cd7dca80608ab1157777195225659ae9cab27c
 size 1912664024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7645326d3fd71a6ea46ef71475c21611715db65d24641885ad9b51b20c73a24d
 size 958697812

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ac6d376a99dca2c862d044dc6bf54e25ea4b0e9b7d5fb64d21cc77371fcbd7e
 size 958697812

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c22b464bb859e79260348791ff89706887d2ac8a613c40a3bf13d707af961dcf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:facdb6d766a802a4f41ae7ca1bf9ed0da8d62bf0691baea9ce44e43fff7b8488
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fccd625c4165c9d4a7f080a65a0472641bb2f8b11a70f1674d014cc7c7ba718
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d41c5e0dcdb54227b9ba743f10aa7627f76f4bc3177dd08d51a11e9d2ee11e9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.018406037180195105,
   "eval_steps": 20,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -232,6 +232,36 @@
       "eval_samples_per_second": 4.254,
       "eval_steps_per_second": 0.553,
       "step": 300
     }
   ],
   "logging_steps": 20,
@@ -239,7 +269,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 2.13106037133312e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.021473710043560953,
   "eval_steps": 20,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.254,
       "eval_steps_per_second": 0.553,
       "step": 300
+    },
+    {
+      "epoch": 0.019633106325541445,
+      "grad_norm": 0.09555982798337936,
+      "learning_rate": 0.00019613354609058549,
+      "loss": 1.6213,
+      "step": 320
+    },
+    {
+      "epoch": 0.019633106325541445,
+      "eval_loss": 1.5556869506835938,
+      "eval_runtime": 23.5239,
+      "eval_samples_per_second": 4.251,
+      "eval_steps_per_second": 0.553,
+      "step": 320
+    },
+    {
+      "epoch": 0.020860175470887785,
+      "grad_norm": 0.13320715725421906,
+      "learning_rate": 0.00019588805695347982,
+      "loss": 1.6956,
+      "step": 340
+    },
+    {
+      "epoch": 0.020860175470887785,
+      "eval_loss": 1.5424914360046387,
+      "eval_runtime": 23.6064,
+      "eval_samples_per_second": 4.236,
+      "eval_steps_per_second": 0.551,
+      "step": 340
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 2.51593625816064e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null