Training in progress, step 600, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ce397cee94d09c474cc9f566d5d750670c5bafdf025578fa7f6350febb307b3
 size 17640808

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7c3adf6b848fd512d3ccbee07701d5b1281d14b5b6d954bd60bfedcb5226d84
 size 17640808

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee1b6c5e53b8c5c952aae054e001356d25146b40ed70ecd2f2b52bdd68ace937
+size 26406896

last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecb36a516a23aecebfe651a1c5cca918dca170c832d6bdc7a9702ef78855dfe0
+size 26406896

last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeebdb273713699af0a6f32430557fd46218f8d966809f2fa13c0b5dbca8034d
+size 26406960

last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c061daf01fde60488ccad6122d732edaabdff60e939c748c1b78728efd62a9c
+size 26406960

last-checkpoint/global_step600/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95579a409da3ae7895a20eacd13ac4674232acbda1c300178e4e0668ff2d2b85
+size 290123128

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step580~~


1	+ global_step600

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abfb47c9726fa35d508e54a3049a1757fb6e0ff26b3934ff47b66dd662a82d31
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1da147ba0da6ab5b60b2efc85755930d6b407244bb1369739c55160abe21812
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a504e3d11123830fb9a64b49b55ed317539ee5965b043766551954548bbed111
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:363d8b619021abcc488299c842ba022316c3dbc94bf7d41b4ef7eefc2f0a01b3
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4df122f3d29d0cc7cf083a996bb27cc89af3278c4ec424ddbeabc1f5a0b14723
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d941f67a913ea9f7baeb6478f49eea1e9cbea9622455f36d8025f2d80f5056d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a073049aba3ed5321f7ff1d8d11ce04afc9315843d01b82a3475c4e7d90085c3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e08479df3147ab731a7c132ca6cbbd2dd0a0df3e66b9c6d7a3372c4ee408deff
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87127e7b4de7b8cc43b1d112e5d5285b7668bbc7782ef3227ec6ffe19962953a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab5f0cd062a08b47003f91a4fb1c05b55ff0a59f0c4434093fc45dcb54d07c1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 580,
   "best_metric": 1.5717545747756958,
   "best_model_checkpoint": "miner_id_24/checkpoint-580",
-  "epoch": 0.8123249299719888,
   "eval_steps": 10,
-  "global_step": 580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1292,6 +1292,50 @@
       "eval_samples_per_second": 23.941,
       "eval_steps_per_second": 1.5,
       "step": 580
     }
   ],
   "logging_steps": 5,
@@ -1306,7 +1350,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -1320,7 +1364,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.690455755969004e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 580,
   "best_metric": 1.5717545747756958,
   "best_model_checkpoint": "miner_id_24/checkpoint-580",
+  "epoch": 0.8403361344537815,
   "eval_steps": 10,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.941,
       "eval_steps_per_second": 1.5,
       "step": 580
+    },
+    {
+      "epoch": 0.819327731092437,
+      "grad_norm": 0.765592098236084,
+      "learning_rate": 1.6821615206495312e-05,
+      "loss": 1.6214,
+      "step": 585
+    },
+    {
+      "epoch": 0.8263305322128851,
+      "grad_norm": 0.26741182804107666,
+      "learning_rate": 1.558661759140786e-05,
+      "loss": 1.5273,
+      "step": 590
+    },
+    {
+      "epoch": 0.8263305322128851,
+      "eval_loss": 1.5749902725219727,
+      "eval_runtime": 211.3039,
+      "eval_samples_per_second": 24.022,
+      "eval_steps_per_second": 1.505,
+      "step": 590
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.508738100528717,
+      "learning_rate": 1.439486275322357e-05,
+      "loss": 1.6532,
+      "step": 595
+    },
+    {
+      "epoch": 0.8403361344537815,
+      "grad_norm": 1.1134337186813354,
+      "learning_rate": 1.324696119690173e-05,
+      "loss": 1.4611,
+      "step": 600
+    },
+    {
+      "epoch": 0.8403361344537815,
+      "eval_loss": 1.5721418857574463,
+      "eval_runtime": 215.1945,
+      "eval_samples_per_second": 23.588,
+      "eval_steps_per_second": 1.478,
+      "step": 600
     }
   ],
   "logging_steps": 5,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6.921161126864486e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null