Training in progress, step 370, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step370/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step370/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step370/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d49df9cdd2b8a79cd0cb0e488aea9519a1376033fb61e113366981215594b7f
 size 838922248

 version https://git-lfs.github.com/spec/v1
+oid sha256:50f547452116a91ced741817d0158e20a2639a40c36dbdb9597bab5096bfeede
 size 838922248

last-checkpoint/global_step370/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c45dc08a197f7c0281aa8ebc4fe6f95eb165aae4591c45db4addb9a8beeb7e02
+size 2516610128

last-checkpoint/global_step370/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f26506e2982686927c242f0ecd57a2754730d3774a4fd1d990c895969fc1ac3a
+size 2516610256

last-checkpoint/global_step370/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d53b6de8062ec711428eeb0959e27bec1400d3240c9b90c61b6f742a6c8f971
+size 839203436

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step360~~


1	+ global_step370

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e760a2877f0e4cbec17445048222fca781735cd73b3ede9731975ec9794ec58a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfcfee17e6b489c56e369f8424fd3148d93d6475de75e98a3419a0b00e9010a1
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:955963f226df3d0deffe3c848412bf316f608f7c3993868bb77ad7599d9f40d2
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:eda4d898981379b275d5069d167e4e5e3bb8d0d2583814bf72968446d9b1be71
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b1fb32299bb80e0390e04832f5ba30c00d2cbbdc2f38744f36753aec3950b53
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2e1dfa07caf61548c4783222b53e3b067d5dd48ff04c0299d1b38fd0e8701c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 350,
   "best_metric": 1.5130423307418823,
   "best_model_checkpoint": "miner_id_24/checkpoint-350",
-  "epoch": 0.06060861147354687,
   "eval_steps": 10,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2824,6 +2824,84 @@
       "eval_samples_per_second": 9.292,
       "eval_steps_per_second": 1.162,
       "step": 360
     }
   ],
   "logging_steps": 1,
@@ -2838,7 +2916,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -2852,7 +2930,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2435079068739174e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 350,
   "best_metric": 1.5130423307418823,
   "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.062292184014478724,
   "eval_steps": 10,
+  "global_step": 370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.292,
       "eval_steps_per_second": 1.162,
       "step": 360
+    },
+    {
+      "epoch": 0.06077696872764005,
+      "grad_norm": 1.6546894311904907,
+      "learning_rate": 7.312691451204178e-06,
+      "loss": 1.4844,
+      "step": 361
+    },
+    {
+      "epoch": 0.06094532598173324,
+      "grad_norm": 0.9022347331047058,
+      "learning_rate": 7.2984687052230585e-06,
+      "loss": 1.5351,
+      "step": 362
+    },
+    {
+      "epoch": 0.06111368323582642,
+      "grad_norm": 1.407510757446289,
+      "learning_rate": 7.284222338919758e-06,
+      "loss": 1.4135,
+      "step": 363
+    },
+    {
+      "epoch": 0.06128204048991961,
+      "grad_norm": 1.2970539331436157,
+      "learning_rate": 7.269952498697734e-06,
+      "loss": 1.4892,
+      "step": 364
+    },
+    {
+      "epoch": 0.06145039774401279,
+      "grad_norm": 1.5928813219070435,
+      "learning_rate": 7.255659331201673e-06,
+      "loss": 1.6161,
+      "step": 365
+    },
+    {
+      "epoch": 0.06161875499810598,
+      "grad_norm": 1.8556829690933228,
+      "learning_rate": 7.241342983315985e-06,
+      "loss": 1.6214,
+      "step": 366
+    },
+    {
+      "epoch": 0.06178711225219917,
+      "grad_norm": 1.4815845489501953,
+      "learning_rate": 7.227003602163296e-06,
+      "loss": 1.6008,
+      "step": 367
+    },
+    {
+      "epoch": 0.061955469506292354,
+      "grad_norm": 1.992004632949829,
+      "learning_rate": 7.212641335102932e-06,
+      "loss": 1.5366,
+      "step": 368
+    },
+    {
+      "epoch": 0.06212382676038554,
+      "grad_norm": 1.532273292541504,
+      "learning_rate": 7.198256329729412e-06,
+      "loss": 1.4833,
+      "step": 369
+    },
+    {
+      "epoch": 0.062292184014478724,
+      "grad_norm": 2.722139358520508,
+      "learning_rate": 7.183848733870917e-06,
+      "loss": 1.9184,
+      "step": 370
+    },
+    {
+      "epoch": 0.062292184014478724,
+      "eval_loss": 1.5153603553771973,
+      "eval_runtime": 1075.4788,
+      "eval_samples_per_second": 9.302,
+      "eval_steps_per_second": 1.163,
+      "step": 370
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.3058275709537485e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null