Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd912481a3f112c909bdf7772c4de3e0416c463e31dab3b572e8cd054f229188
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:44441ec494dd1eeddb4f4b1f003d97643c00cca698aa10a2254f4b4bdacb8704
 size 98088784

last-checkpoint/global_step1100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dee808df81fc01618f166dd9adc8f410006ed9e8e5bdfbe48da6338752ec172
+size 73939813

last-checkpoint/global_step1100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff19cac0e35b930e98f201f70574798e72b0216e01348755c4e6a66033319aa5
+size 73939813

last-checkpoint/global_step1100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:392b29b2fbff6661a95bc8e5314c5f3f6d23ecd4140810512c3f17d4227567a0
+size 73939877

last-checkpoint/global_step1100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:126b4cb8d8675f0b95af0b9b07199ccc0b35045b0f45a165f3677b5406ba7b15
+size 73939877

last-checkpoint/global_step1100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:472d3069e30cd1792f3b039921a033eb3a5631d786c055af3ce407fa6487cfb6
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1050~~


1	+ global_step1100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd147d7cadee51c1cd4b7a96239e8821ac45609799ce3f758d85d65a610652a3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ceb0ba0fefc4682de8ae9d502be348b266aef51d2c517ea10d576e3957cf16e
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dcbc055b03388dea41e9d71af92bbf514f0751a8067ba6941669b1f09b60b00
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7f0589f852327dcbb3a04372c5c9b3b3aed87183a18e4e78c8842af6ccc94ea
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:193c368d03fd736fbd74394414f3c4a9e31293e937e2453367fe03c25a1ccf85
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f4aa42ba29fbaf89d327737bbdbe96fa7085e909f789a4b592724ea39fd0491
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d4cc4dd1df4d4e124e948ad70a963d30df355b64c752b74477c3468b82fe011
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed1a940d9e87126bc4746d90070268ad6d65dcc8b4794a5c83d93738db2dc6b
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a787b00c6cfa48c9ffd14b578310dac54fd359154d3100e20e3ed9a383ff3597
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:41aec0a0f7fd8e266c974eb692fe1a8c668e3b6745d80b43c921e581b091927b
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6898888945579529,
   "best_model_checkpoint": null,
-  "epoch": 1.0293937538273117,
   "eval_steps": 50,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1646,6 +1646,84 @@
       "eval_samples_per_second": 126.592,
       "eval_steps_per_second": 15.832,
       "step": 1050
     }
   ],
   "logging_steps": 5,
@@ -1674,7 +1752,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.42831958984491e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6880703568458557,
   "best_model_checkpoint": null,
+  "epoch": 1.0783833435394978,
   "eval_steps": 50,
+  "global_step": 1100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 126.592,
       "eval_steps_per_second": 15.832,
       "step": 1050
+    },
+    {
+      "epoch": 1.0342927127985304,
+      "grad_norm": 0.22498337924480438,
+      "learning_rate": 0.0001007536332725504,
+      "loss": 0.7153,
+      "step": 1055
+    },
+    {
+      "epoch": 1.039191671769749,
+      "grad_norm": 0.19475223124027252,
+      "learning_rate": 0.00010065142396828989,
+      "loss": 0.6969,
+      "step": 1060
+    },
+    {
+      "epoch": 1.0440906307409676,
+      "grad_norm": 0.20079198479652405,
+      "learning_rate": 0.00010054874962164521,
+      "loss": 0.6906,
+      "step": 1065
+    },
+    {
+      "epoch": 1.0489895897121861,
+      "grad_norm": 0.18500946462154388,
+      "learning_rate": 0.00010044561128775412,
+      "loss": 0.7027,
+      "step": 1070
+    },
+    {
+      "epoch": 1.0538885486834049,
+      "grad_norm": 0.18668654561042786,
+      "learning_rate": 0.0001003420100265226,
+      "loss": 0.7157,
+      "step": 1075
+    },
+    {
+      "epoch": 1.0587875076546234,
+      "grad_norm": 0.21674495935440063,
+      "learning_rate": 0.00010023794690261389,
+      "loss": 0.7208,
+      "step": 1080
+    },
+    {
+      "epoch": 1.063686466625842,
+      "grad_norm": 0.20600494742393494,
+      "learning_rate": 0.0001001334229854376,
+      "loss": 0.6957,
+      "step": 1085
+    },
+    {
+      "epoch": 1.0685854255970606,
+      "grad_norm": 0.2198040932416916,
+      "learning_rate": 0.0001000284393491387,
+      "loss": 0.7059,
+      "step": 1090
+    },
+    {
+      "epoch": 1.0734843845682793,
+      "grad_norm": 0.225518599152565,
+      "learning_rate": 9.99229970725865e-05,
+      "loss": 0.7017,
+      "step": 1095
+    },
+    {
+      "epoch": 1.0783833435394978,
+      "grad_norm": 0.2226964235305786,
+      "learning_rate": 9.981709723936353e-05,
+      "loss": 0.6967,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0783833435394978,
+      "eval_loss": 0.6880703568458557,
+      "eval_runtime": 15.55,
+      "eval_samples_per_second": 125.981,
+      "eval_steps_per_second": 15.756,
+      "step": 1100
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.6795728734846976e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null