Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1700/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d7d8d9f2041f5ec0e20da61e6b38864099d9784d4d88603405a4ac0869a21c5
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e14a9273234d33f3c178ef3a0ba4d511ae44074d2744710df918a8bf99e5a9
 size 98088784

last-checkpoint/global_step1700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6fa212087e197e18104587e8a5856885791b1d12725d96b34d5fb7b1c399e43
+size 73939813

last-checkpoint/global_step1700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:083f06fda12fc1b0b47b1a078a4a96b08178cf148288ca839d5d491d25743634
+size 73939813

last-checkpoint/global_step1700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5941cde777010bb0a0b89079f4d56cd960096d15f4202ba7123724c91329de01
+size 73939877

last-checkpoint/global_step1700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8ae29c3ccaf5870bec4ff1ef38f0d802df750f64c0e30866d4117fbe47d455d
+size 73939877

last-checkpoint/global_step1700/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80f2dad532764b5c2c3da62a46052acc16072dc2534f8207471aa559e2be2520
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1650~~


1	+ global_step1700

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f1ee2ab718ab190a9e55d86a6bc3a3137051d45b4c24c46fc9c6140e9ca92a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9e079811a4f16d069bc6568e820b087638d9087ea98d680117f7863e2b84d72
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6653a710426775dbae497c0d7bc8148dd293be103481bc5e440795dc85468ed
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:796c55d83e5f448be816dff1e47df7da05dc49ac9f33f03c4fe53871b89249f9
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37a26542dd8511c545037d38c190adc55ae71cb3c71c1818ad1c8f2830cd9198
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca397837ff76969e457a84025e42de488cf6708cec475bfd6c699a74e998db74
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a01347ba5a8b1be613404353d411e2a8dd0bd7f4d37b9f477e30fc9b6e64b6e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:01726fe54cdf568e628013444d43170363d989763bb3643861f1834550bf40cc
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81661e4b44bfd455c914a049c1b41a21fc578ea8bafdc83919218206bb87d1bd
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:32892d87473868561cebb2d12f97121f75551c078a3eed1dd7629182a1fab0ee
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6636867523193359,
   "best_model_checkpoint": null,
-  "epoch": 1.6172688303735456,
   "eval_steps": 50,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2582,6 +2582,84 @@
       "eval_samples_per_second": 126.591,
       "eval_steps_per_second": 15.832,
       "step": 1650
     }
   ],
   "logging_steps": 5,
@@ -2610,7 +2688,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.519102220866683e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6626052856445312,
   "best_model_checkpoint": null,
+  "epoch": 1.6662584200857318,
   "eval_steps": 50,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 126.591,
       "eval_steps_per_second": 15.832,
       "step": 1650
+    },
+    {
+      "epoch": 1.6221677893447644,
+      "grad_norm": 0.1960122287273407,
+      "learning_rate": 8.550136034531021e-05,
+      "loss": 0.6894,
+      "step": 1655
+    },
+    {
+      "epoch": 1.6270667483159829,
+      "grad_norm": 0.2283468395471573,
+      "learning_rate": 8.535212038411514e-05,
+      "loss": 0.6957,
+      "step": 1660
+    },
+    {
+      "epoch": 1.6319657072872014,
+      "grad_norm": 0.1952306181192398,
+      "learning_rate": 8.520257260455164e-05,
+      "loss": 0.7033,
+      "step": 1665
+    },
+    {
+      "epoch": 1.63686466625842,
+      "grad_norm": 0.21941348910331726,
+      "learning_rate": 8.505271854345444e-05,
+      "loss": 0.7226,
+      "step": 1670
+    },
+    {
+      "epoch": 1.6417636252296388,
+      "grad_norm": 0.2151281237602234,
+      "learning_rate": 8.490255974080595e-05,
+      "loss": 0.675,
+      "step": 1675
+    },
+    {
+      "epoch": 1.6466625842008573,
+      "grad_norm": 0.18643486499786377,
+      "learning_rate": 8.475209773972018e-05,
+      "loss": 0.6698,
+      "step": 1680
+    },
+    {
+      "epoch": 1.6515615431720758,
+      "grad_norm": 0.2096673548221588,
+      "learning_rate": 8.460133408642697e-05,
+      "loss": 0.7,
+      "step": 1685
+    },
+    {
+      "epoch": 1.6564605021432945,
+      "grad_norm": 0.2291480302810669,
+      "learning_rate": 8.445027033025611e-05,
+      "loss": 0.6651,
+      "step": 1690
+    },
+    {
+      "epoch": 1.6613594611145133,
+      "grad_norm": 0.22269277274608612,
+      "learning_rate": 8.429890802362145e-05,
+      "loss": 0.6495,
+      "step": 1695
+    },
+    {
+      "epoch": 1.6662584200857318,
+      "grad_norm": 0.22558292746543884,
+      "learning_rate": 8.414724872200488e-05,
+      "loss": 0.7104,
+      "step": 1700
+    },
+    {
+      "epoch": 1.6662584200857318,
+      "eval_loss": 0.6626052856445312,
+      "eval_runtime": 15.7417,
+      "eval_samples_per_second": 124.447,
+      "eval_steps_per_second": 15.564,
+      "step": 1700
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 8.773118177795113e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null