Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1240/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1240/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1240/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1240/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1240/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +40 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bcd1f99ca4639d5b7aeddd12e28d8ae4f66d17cb473b2d54aaeb23e2af3a90c
 size 46708280

 version https://git-lfs.github.com/spec/v1
+oid sha256:f399f79386b62d14991a13933de2c4d9515d8ad5b112e7f3b6c47f0400762c7e
 size 46708280

last-checkpoint/global_step1240/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6dcad10b269bb77b5ea94fd6c121340af81332b2a594c1e5218577d4be9704d
+size 35203941

last-checkpoint/global_step1240/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9060929a93e253502a267887987b1ff6dcf875ceea2962f3c6cda3d2abf20f4
+size 35203941

last-checkpoint/global_step1240/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a1a10b585fda800359703e02767a0929b9397ae6d34b7429d37373270343093
+size 35204005

last-checkpoint/global_step1240/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:860bf12f4a41d11fcb7637d0759c5846d56b9f20a6b808b09480b4b5930bebed
+size 35204005

last-checkpoint/global_step1240/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ee322f972ee5ce691ce5c817cc6d9fd0024a789c69dee9ee84a6481e29f0501
+size 46865049

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1220~~


1	+ global_step1240

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:814c0560f0064c72cb05d6fdabce12f4ea60678ef99ae76b35beb0a5b61a746f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6b1568a3be6471fe5343d9ba70ecf971161f005dabab70609bbe0efc0a1154c
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55f786f89c825e7eccff5f5ad6f275ae339974e5fc7ca3adc2610c4ddc7dc29
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:79ff2138cabf47b1e1f7e9f9e14437006377ad11fddd68d4eb807fb09fa9946c
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1050cb4078b8fb421e9d7cd11460b4f8b3150009a89652c0ce835de2f415292
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5dfc325f45bcb9e48691a30e44cd2d275c2b9efee589e712277429b85c7627a
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05a9ac1e1c4df9ca87b88219341350f97eb24cac74de6cbc9e039d0e0d106d3c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9004e7973fd05119b3de581247eeb96db6c413660040fe253c572682c10b1e4b
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c32e39d9113c7bbf215e86b059c76588bc6462dcc095622f3886bf1b72f7af
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:718518f1ad8a78addabd073f6934994405f973a0d391d954551404409b75e08c
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.0451515913009644,
   "best_model_checkpoint": null,
-  "epoch": 0.17368402320532442,
   "eval_steps": 20,
-  "global_step": 1220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2204,6 +2204,42 @@
       "eval_samples_per_second": 512.614,
       "eval_steps_per_second": 16.02,
       "step": 1220
     }
   ],
   "logging_steps": 5,
@@ -2232,7 +2268,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.974615545851412e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.0437681674957275,
   "best_model_checkpoint": null,
+  "epoch": 0.17653130227426417,
   "eval_steps": 20,
+  "global_step": 1240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 512.614,
       "eval_steps_per_second": 16.02,
       "step": 1220
+    },
+    {
+      "epoch": 0.17439584297255936,
+      "grad_norm": 1.5431355237960815,
+      "learning_rate": 2.87307975427558e-05,
+      "loss": 1.0436,
+      "step": 1225
+    },
+    {
+      "epoch": 0.17510766273979428,
+      "grad_norm": 1.57207453250885,
+      "learning_rate": 2.8729794038290515e-05,
+      "loss": 1.0629,
+      "step": 1230
+    },
+    {
+      "epoch": 0.17581948250702922,
+      "grad_norm": 1.5140032768249512,
+      "learning_rate": 2.8728786022756228e-05,
+      "loss": 1.0282,
+      "step": 1235
+    },
+    {
+      "epoch": 0.17653130227426417,
+      "grad_norm": 1.4375582933425903,
+      "learning_rate": 2.8727773496470726e-05,
+      "loss": 1.0326,
+      "step": 1240
+    },
+    {
+      "epoch": 0.17653130227426417,
+      "eval_loss": 1.0437681674957275,
+      "eval_runtime": 194.486,
+      "eval_samples_per_second": 513.657,
+      "eval_steps_per_second": 16.053,
+      "step": 1240
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 6.070040067571712e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null