Training in progress, epoch 8, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step3750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3750/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0434ba551e7d0b16b8b3b46f2ed6444d23030597c313804b6fd83ef06e7ab21a
 size 515926240

 version https://git-lfs.github.com/spec/v1
+oid sha256:047ccf1116a27aef838b2cf5df06c84e4bb47355dadf04bbc7c769c648c695a1
 size 515926240

last-checkpoint/global_step3750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b00fcb4ad728e6db2e89317543a69ff85e21e32f4dee2b06bd7b6a430f5d14f5
+size 388949733

last-checkpoint/global_step3750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5169d2293afafcbaf979e1dd49480bfd6c4e0d6f20b335853e598bca09cd960c
+size 388949797

last-checkpoint/global_step3750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecafa13a717e6ff9e3063143aa1ed4e5d14ace6573e8c9bb5789db122bcd5d64
+size 388949797

last-checkpoint/global_step3750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:442c8069b48d7cc14e8386947976f9cff945d8ea06ed46ad502dc307465626d3
+size 388949797

last-checkpoint/global_step3750/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edc16391daa13a5806f041f469a67b9568f43248f9b6a0589ed7b8453b261f48
+size 982830693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3700~~


1	+ global_step3750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa8c5a54cb456ea3cfaf49d40f30c6908d8a3542dc9aeb1fb231f5c2103ea449
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:299c5961b9e338d8364f29ced7a7fb3e75f50e59821688a9e8a25b3194dbb538
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71e30baff3e5d30f9edf3a07ba4fcc69de82d3af1390d23884cedf77ba6a92df
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:f719324819b1361b02477a54a0118529d0dd0ce09bbe595cfcd2887f984dce1b
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe660ad5a8aac3be2216d2e12da56a405374c8950e71edcf0dca08a39439b73c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcbfd45a4fefb05cc24a437f3cd43b41e4d635d02a5f6cceac023d5107bddf30
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72c1fd64b0dd77456239c504b6e3b5c60505cb8731cd9d5c428f69184a68fb76
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d63c70c685f3c487dd218b7cdb050acfe8f45710a539363f79ab3d74af9dbe6
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bac0fd0463c8aaf6856f39551c2a213499d2ff9cdcf42f61668f14da010a2d5
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d61bfc2f268866ccd39b04a4ca0145d716056cc446969bdbb0838734542c317
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.7134996056556702,
   "best_model_checkpoint": null,
-  "epoch": 8.240534521158128,
   "eval_steps": 50,
-  "global_step": 3700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5780,6 +5780,84 @@
       "eval_samples_per_second": 102.703,
       "eval_steps_per_second": 12.883,
       "step": 3700
     }
   ],
   "logging_steps": 5,
@@ -5808,7 +5886,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6660173065069527e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.7094199061393738,
   "best_model_checkpoint": null,
+  "epoch": 8.351893095768375,
   "eval_steps": 50,
+  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 102.703,
       "eval_steps_per_second": 12.883,
       "step": 3700
+    },
+    {
+      "epoch": 8.251670378619155,
+      "grad_norm": 1.1108819246292114,
+      "learning_rate": 1.218548828243257e-05,
+      "loss": 0.6861,
+      "step": 3705
+    },
+    {
+      "epoch": 8.262806236080179,
+      "grad_norm": 1.2709901332855225,
+      "learning_rate": 1.2173041072641407e-05,
+      "loss": 0.6582,
+      "step": 3710
+    },
+    {
+      "epoch": 8.273942093541203,
+      "grad_norm": 1.2328144311904907,
+      "learning_rate": 1.2160584908401693e-05,
+      "loss": 0.7973,
+      "step": 3715
+    },
+    {
+      "epoch": 8.285077951002227,
+      "grad_norm": 1.4351321458816528,
+      "learning_rate": 1.2148119821071803e-05,
+      "loss": 0.7226,
+      "step": 3720
+    },
+    {
+      "epoch": 8.296213808463252,
+      "grad_norm": 1.3934727907180786,
+      "learning_rate": 1.2135645842032582e-05,
+      "loss": 0.6999,
+      "step": 3725
+    },
+    {
+      "epoch": 8.307349665924276,
+      "grad_norm": 1.5040556192398071,
+      "learning_rate": 1.2123163002687258e-05,
+      "loss": 0.7128,
+      "step": 3730
+    },
+    {
+      "epoch": 8.3184855233853,
+      "grad_norm": 1.6388317346572876,
+      "learning_rate": 1.2110671334461362e-05,
+      "loss": 0.7352,
+      "step": 3735
+    },
+    {
+      "epoch": 8.329621380846325,
+      "grad_norm": 1.1943713426589966,
+      "learning_rate": 1.2098170868802653e-05,
+      "loss": 0.7112,
+      "step": 3740
+    },
+    {
+      "epoch": 8.340757238307349,
+      "grad_norm": 1.1306072473526,
+      "learning_rate": 1.208566163718104e-05,
+      "loss": 0.6745,
+      "step": 3745
+    },
+    {
+      "epoch": 8.351893095768375,
+      "grad_norm": 1.227961540222168,
+      "learning_rate": 1.2073143671088499e-05,
+      "loss": 0.7776,
+      "step": 3750
+    },
+    {
+      "epoch": 8.351893095768375,
+      "eval_loss": 0.7094199061393738,
+      "eval_runtime": 8.4253,
+      "eval_samples_per_second": 102.193,
+      "eval_steps_per_second": 12.819,
+      "step": 3750
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.688518153497215e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null