Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1150/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44441ec494dd1eeddb4f4b1f003d97643c00cca698aa10a2254f4b4bdacb8704
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0762ec721b93d1a0e10ada578c7538ccb87f010928b297b4505a645b3aec697
 size 98088784

last-checkpoint/global_step1150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa1fd94ec52151cc8ac9118abed11c7a3e7a5973cd11ebe89a119398b424d040
+size 73939813

last-checkpoint/global_step1150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c28d9686a61da27a86d8432e4c1c6f8448d185febb9dc62e63da04f25aef4400
+size 73939813

last-checkpoint/global_step1150/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ae989bbd465e0ea99a6c57870c991c867715b51aa2fce0ea3fb262bedbf097a
+size 73939877

last-checkpoint/global_step1150/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb6576ebf655c7cbdf4585f340cae9ee67e706b6193cc4a03c863634805807ac
+size 73939877

last-checkpoint/global_step1150/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9590c7cd283fe8a45bd69e18382a39acaeba5bc967eccf83e04a9c12c1af5ea8
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1100~~


1	+ global_step1150

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ceb0ba0fefc4682de8ae9d502be348b266aef51d2c517ea10d576e3957cf16e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:32e2c783f044e208693875b6618820b4692ab8369227ed5fcfe75de8c98cb2f5
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7f0589f852327dcbb3a04372c5c9b3b3aed87183a18e4e78c8842af6ccc94ea
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9a009ec584589b323bfde6fb332132397a948a68665dbf47ae6b13108a76ac8
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f4aa42ba29fbaf89d327737bbdbe96fa7085e909f789a4b592724ea39fd0491
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eba47f1f3f2aaeb1ee30212c3d28966395e9b15ce04d718f220251a1b885544
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ed1a940d9e87126bc4746d90070268ad6d65dcc8b4794a5c83d93738db2dc6b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:969e35a2eee24aa5d0640e276157b14ed3586e426e68f6139c80b9bdb3012f62
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41aec0a0f7fd8e266c974eb692fe1a8c668e3b6745d80b43c921e581b091927b
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:f599b3f2fdaee9f298de483bc342667a86479cffdd08dfb05aebfb998561b471
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6880703568458557,
   "best_model_checkpoint": null,
-  "epoch": 1.0783833435394978,
   "eval_steps": 50,
-  "global_step": 1100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1724,6 +1724,84 @@
       "eval_samples_per_second": 125.981,
       "eval_steps_per_second": 15.756,
       "step": 1100
     }
   ],
   "logging_steps": 5,
@@ -1752,7 +1830,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.6795728734846976e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6847204566001892,
   "best_model_checkpoint": null,
+  "epoch": 1.127372933251684,
   "eval_steps": 50,
+  "global_step": 1150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 125.981,
       "eval_steps_per_second": 15.756,
       "step": 1100
+    },
+    {
+      "epoch": 1.0832823025107166,
+      "grad_norm": 0.2049368917942047,
+      "learning_rate": 9.97107409377544e-05,
+      "loss": 0.7052,
+      "step": 1105
+    },
+    {
+      "epoch": 1.088181261481935,
+      "grad_norm": 0.2253541499376297,
+      "learning_rate": 9.960392926073467e-05,
+      "loss": 0.7028,
+      "step": 1110
+    },
+    {
+      "epoch": 1.0930802204531538,
+      "grad_norm": 0.2347995936870575,
+      "learning_rate": 9.949666330595961e-05,
+      "loss": 0.7055,
+      "step": 1115
+    },
+    {
+      "epoch": 1.0979791794243723,
+      "grad_norm": 0.21330611407756805,
+      "learning_rate": 9.938894417575287e-05,
+      "loss": 0.7326,
+      "step": 1120
+    },
+    {
+      "epoch": 1.102878138395591,
+      "grad_norm": 0.20777581632137299,
+      "learning_rate": 9.928077297709514e-05,
+      "loss": 0.7198,
+      "step": 1125
+    },
+    {
+      "epoch": 1.1077770973668095,
+      "grad_norm": 0.22546184062957764,
+      "learning_rate": 9.91721508216129e-05,
+      "loss": 0.6848,
+      "step": 1130
+    },
+    {
+      "epoch": 1.1126760563380282,
+      "grad_norm": 0.22367283701896667,
+      "learning_rate": 9.90630788255668e-05,
+      "loss": 0.7067,
+      "step": 1135
+    },
+    {
+      "epoch": 1.1175750153092467,
+      "grad_norm": 0.2060408741235733,
+      "learning_rate": 9.895355810984042e-05,
+      "loss": 0.7032,
+      "step": 1140
+    },
+    {
+      "epoch": 1.1224739742804655,
+      "grad_norm": 0.22378048300743103,
+      "learning_rate": 9.884358979992852e-05,
+      "loss": 0.7039,
+      "step": 1145
+    },
+    {
+      "epoch": 1.127372933251684,
+      "grad_norm": 0.22920195758342743,
+      "learning_rate": 9.873317502592563e-05,
+      "loss": 0.6932,
+      "step": 1150
+    },
+    {
+      "epoch": 1.127372933251684,
+      "eval_loss": 0.6847204566001892,
+      "eval_runtime": 15.5644,
+      "eval_samples_per_second": 125.864,
+      "eval_steps_per_second": 15.741,
+      "step": 1150
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.936913961881436e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null