Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f55186aef0f4403758d9ce629cd7dca80608ab1157777195225659ae9cab27c
 size 1912664024

 version https://git-lfs.github.com/spec/v1
+oid sha256:94d812befd8cbd0b1f981f04d8b2411bd46748c41bb793e6d1c612ce1ccdade4
 size 1912664024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac6d376a99dca2c862d044dc6bf54e25ea4b0e9b7d5fb64d21cc77371fcbd7e
 size 958697812

 version https://git-lfs.github.com/spec/v1
+oid sha256:38b00b644b97eeaf0b015fab55c74c65a50fefb85d66e9404fce42857214d8aa
 size 958697812

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:facdb6d766a802a4f41ae7ca1bf9ed0da8d62bf0691baea9ce44e43fff7b8488
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:72e45582261b53d7ecaa35c88e1eccb7713c6d0eb5a23b772caf206808bfa0b5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d41c5e0dcdb54227b9ba743f10aa7627f76f4bc3177dd08d51a11e9d2ee11e9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba62e0fa7ba080474fb13c3d90e298617ab5527a5910d99933271a91cf05a7b9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.021473710043560953,
   "eval_steps": 20,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -262,6 +262,51 @@
       "eval_samples_per_second": 4.236,
       "eval_steps_per_second": 0.551,
       "step": 340
     }
   ],
   "logging_steps": 20,
@@ -269,7 +314,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 2.51593625816064e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.024541382906926805,
   "eval_steps": 20,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.236,
       "eval_steps_per_second": 0.551,
       "step": 340
+    },
+    {
+      "epoch": 0.022087244616234125,
+      "grad_norm": 0.12061001360416412,
+      "learning_rate": 0.00019564256781637413,
+      "loss": 1.6589,
+      "step": 360
+    },
+    {
+      "epoch": 0.022087244616234125,
+      "eval_loss": 1.528477430343628,
+      "eval_runtime": 23.6796,
+      "eval_samples_per_second": 4.223,
+      "eval_steps_per_second": 0.549,
+      "step": 360
+    },
+    {
+      "epoch": 0.023314313761580465,
+      "grad_norm": 0.14327766001224518,
+      "learning_rate": 0.00019539707867926844,
+      "loss": 1.5946,
+      "step": 380
+    },
+    {
+      "epoch": 0.023314313761580465,
+      "eval_loss": 1.52202570438385,
+      "eval_runtime": 23.6756,
+      "eval_samples_per_second": 4.224,
+      "eval_steps_per_second": 0.549,
+      "step": 380
+    },
+    {
+      "epoch": 0.024541382906926805,
+      "grad_norm": 0.12291988730430603,
+      "learning_rate": 0.00019515158954216277,
+      "loss": 1.5366,
+      "step": 400
+    },
+    {
+      "epoch": 0.024541382906926805,
+      "eval_loss": 1.507960319519043,
+      "eval_runtime": 23.6216,
+      "eval_samples_per_second": 4.233,
+      "eval_steps_per_second": 0.55,
+      "step": 400
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 2.93118341999616e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null