Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step4000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0240b6e222ded106342ff50b761da38ad2b38fcb3808077be942ca362e7e7671
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:771f7595253335d0f7b3e5d9548620ff920977b25d1013493890387e97d73a3d
 size 1037269336

last-checkpoint/global_step4000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9db33c2934109344e9790a6a24923827069a5cbff5be4dfeed5abed210416129
+size 781993445

last-checkpoint/global_step4000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:364e2e4fe8bf27c48c8f22149e5bd025ff98fd03141a0e70f24ca3970e7aaa3c
+size 781993509

last-checkpoint/global_step4000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55a2042c1c983f42df9ed5fb3f3fafa7a0335dbe50cfa52e7369122eaabfc304
+size 781993509

last-checkpoint/global_step4000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28737b93e49b1723caea50a45e6cadf6ea49a3cc984e46af27919d5adfe9bb18
+size 781993509

last-checkpoint/global_step4000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04e0eca13b582c26cfb2623ba0e865f3d272dfc90cc1e2db92804e4596e915c3
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3900~~


1	+ global_step4000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b12b40563b99c2baee008fe86357b2292b938122b66c4fd030619ed3a7e249c2
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:7738b79cde91732aa1ae36546c20e2adfb138db06ede459f3546964f4c72f003
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c324bba1f61bf365a138212f43772e0143abdeacc0a0a8df262a19f5484c461
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c87bb0bbd4a5d934e9e0ee64426668f65a3c0671e53f80788bd09202aaa80ce
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66d131ba9a870afc277bffc705ecd17f99202d034a2e308e14148808e10f8866
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3438bbb08774094f199cd5833a18b6fec0ce5cda0f318f97029e7d59620cafc6
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52ad6bb7a439bb1c3f9f1f35e584026ae43dfcd4373e8b47d872d00c633752f2
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:4893134b5c11d042dab70821374bd20a7f7800fefcc8fad1ea78520c80bfcce6
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5fd6e854e3b09e0cbb5e0b9ed1447e26fda6e84966f68c365186f77f59549fc
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:7278ee28e675006b1a18eabb528c5e753ec5c79a4c5c843c134b5fc72246eac3
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9406747817993164,
   "best_model_checkpoint": null,
-  "epoch": 0.56694286960314,
   "eval_steps": 50,
-  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6092,6 +6092,162 @@
       "eval_samples_per_second": 173.341,
       "eval_steps_per_second": 10.87,
       "step": 3900
     }
   ],
   "logging_steps": 5,
@@ -6120,7 +6276,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0171604246022062e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.9395991563796997,
   "best_model_checkpoint": null,
+  "epoch": 0.5814798662596308,
   "eval_steps": 50,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.341,
       "eval_steps_per_second": 10.87,
       "step": 3900
+    },
+    {
+      "epoch": 0.5676697194359646,
+      "grad_norm": 2.6036624908447266,
+      "learning_rate": 6.791836657414602e-05,
+      "loss": 2.1123,
+      "step": 3905
+    },
+    {
+      "epoch": 0.5683965692687891,
+      "grad_norm": 2.3896546363830566,
+      "learning_rate": 6.784405353654967e-05,
+      "loss": 1.9911,
+      "step": 3910
+    },
+    {
+      "epoch": 0.5691234191016136,
+      "grad_norm": 2.328312635421753,
+      "learning_rate": 6.776969582421008e-05,
+      "loss": 2.15,
+      "step": 3915
+    },
+    {
+      "epoch": 0.5698502689344381,
+      "grad_norm": 2.710876941680908,
+      "learning_rate": 6.769529362432273e-05,
+      "loss": 1.9971,
+      "step": 3920
+    },
+    {
+      "epoch": 0.5705771187672627,
+      "grad_norm": 2.569784164428711,
+      "learning_rate": 6.762084712419506e-05,
+      "loss": 2.0124,
+      "step": 3925
+    },
+    {
+      "epoch": 0.5713039686000873,
+      "grad_norm": 2.488879919052124,
+      "learning_rate": 6.754635651124603e-05,
+      "loss": 2.0063,
+      "step": 3930
+    },
+    {
+      "epoch": 0.5720308184329118,
+      "grad_norm": 2.3385536670684814,
+      "learning_rate": 6.747182197300568e-05,
+      "loss": 1.9629,
+      "step": 3935
+    },
+    {
+      "epoch": 0.5727576682657363,
+      "grad_norm": 2.078852415084839,
+      "learning_rate": 6.739724369711464e-05,
+      "loss": 1.8292,
+      "step": 3940
+    },
+    {
+      "epoch": 0.5734845180985608,
+      "grad_norm": 2.723219156265259,
+      "learning_rate": 6.732262187132362e-05,
+      "loss": 1.9587,
+      "step": 3945
+    },
+    {
+      "epoch": 0.5742113679313854,
+      "grad_norm": 2.4456677436828613,
+      "learning_rate": 6.724795668349295e-05,
+      "loss": 2.1195,
+      "step": 3950
+    },
+    {
+      "epoch": 0.5742113679313854,
+      "eval_loss": 1.9503754377365112,
+      "eval_runtime": 21.006,
+      "eval_samples_per_second": 157.145,
+      "eval_steps_per_second": 9.854,
+      "step": 3950
+    },
+    {
+      "epoch": 0.57493821776421,
+      "grad_norm": 2.2807230949401855,
+      "learning_rate": 6.71732483215922e-05,
+      "loss": 2.0122,
+      "step": 3955
+    },
+    {
+      "epoch": 0.5756650675970345,
+      "grad_norm": 2.6762518882751465,
+      "learning_rate": 6.709849697369953e-05,
+      "loss": 2.1176,
+      "step": 3960
+    },
+    {
+      "epoch": 0.576391917429859,
+      "grad_norm": 2.549398899078369,
+      "learning_rate": 6.70237028280014e-05,
+      "loss": 2.1504,
+      "step": 3965
+    },
+    {
+      "epoch": 0.5771187672626835,
+      "grad_norm": 2.400339365005493,
+      "learning_rate": 6.6948866072792e-05,
+      "loss": 2.1282,
+      "step": 3970
+    },
+    {
+      "epoch": 0.5778456170955081,
+      "grad_norm": 2.5607948303222656,
+      "learning_rate": 6.687398689647273e-05,
+      "loss": 2.0596,
+      "step": 3975
+    },
+    {
+      "epoch": 0.5785724669283326,
+      "grad_norm": 2.790510892868042,
+      "learning_rate": 6.679906548755185e-05,
+      "loss": 2.0354,
+      "step": 3980
+    },
+    {
+      "epoch": 0.5792993167611571,
+      "grad_norm": 2.543358325958252,
+      "learning_rate": 6.672410203464392e-05,
+      "loss": 2.2136,
+      "step": 3985
+    },
+    {
+      "epoch": 0.5800261665939817,
+      "grad_norm": 2.59621524810791,
+      "learning_rate": 6.664909672646934e-05,
+      "loss": 2.1201,
+      "step": 3990
+    },
+    {
+      "epoch": 0.5807530164268062,
+      "grad_norm": 2.42059063911438,
+      "learning_rate": 6.657404975185387e-05,
+      "loss": 2.0,
+      "step": 3995
+    },
+    {
+      "epoch": 0.5814798662596308,
+      "grad_norm": 2.4144132137298584,
+      "learning_rate": 6.64989612997282e-05,
+      "loss": 2.146,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5814798662596308,
+      "eval_loss": 1.9395991563796997,
+      "eval_runtime": 19.1182,
+      "eval_samples_per_second": 172.663,
+      "eval_steps_per_second": 10.827,
+      "step": 4000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.0434609863437844e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null