Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1850/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1850/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1850/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1850/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1850/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47ce334ce586d5969fcc92ad055145c2069056b6d300ae0df72d77853f0a6dfb
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4daa9130e6c255b2708c8eee5cdb609ab30d4959bd189609fe9f12b19d05f404
 size 98088784

last-checkpoint/global_step1850/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab640d4c517058d3bff2089f16221d5ac8ea2ee6327558a4587682a167e1ba74
+size 73939813

last-checkpoint/global_step1850/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ab913468e5c7b3f94a7d54a3d79dedb2828f5e51fb51d00340ec966df8e3a10
+size 73939813

last-checkpoint/global_step1850/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d6c6f4f3f2baa35c260070f5e4382945067550e6b15387b10d7031e28ec1a4f
+size 73939877

last-checkpoint/global_step1850/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6b17923443f7c2450294b22e6453eaa42bd4f594a10f85faca7ca0a52008bba
+size 73939877

last-checkpoint/global_step1850/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccc69f9a9c13d36cd4e387253365067ad4c94d05c2f1ab3d46f9d518a945ea9f
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1800~~


1	+ global_step1850

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b850ad212988a4d49d9c4427abfa613e8ffe0930c3ecf275d0e2377b1a11b1c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:455fcae85aeb76faf352e118d0cf253d10c3d29e2f06cfabbb29fbc8f2f7a554
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1940fc3acaec9d2a5c3b13202e460ed831210d280838849d74c4234bff50ad5d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b9ba995c6c6ed132c3f4cb1aeaa57d7a5ba11efd8d0082b03fc43d3bd0a2608
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81caecdb1ea7c261367f48c8f13249e5021ec052117f8d4cd1a49788142e2611
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2d4bee624a68686a64406afb400311befecc0c655d3991ddead24890d1c4bf2
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f30d850e334cad1d00d1fb183aaa1672201ec2c64352b5245f5d9d2995b7e14f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:914a4da0db40a07c1e19adf6a7a7212df61a63b6794b176a431ab9c0064c159b
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f60b7ff93077f3e35712903f61b459e10cbddd1013deed93b7016d5bdd9581df
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:85498594364033313bc32ee2cb2af811174fdf184366c917daf31ca0273bcade
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6580623388290405,
   "best_model_checkpoint": null,
-  "epoch": 1.764237599510104,
   "eval_steps": 50,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2816,6 +2816,84 @@
       "eval_samples_per_second": 126.748,
       "eval_steps_per_second": 15.852,
       "step": 1800
     }
   ],
   "logging_steps": 5,
@@ -2844,7 +2922,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.295908283791442e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6555055379867554,
   "best_model_checkpoint": null,
+  "epoch": 1.8132271892222902,
   "eval_steps": 50,
+  "global_step": 1850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 126.748,
       "eval_steps_per_second": 15.852,
       "step": 1800
+    },
+    {
+      "epoch": 1.7691365584813226,
+      "grad_norm": 0.19532938301563263,
+      "learning_rate": 8.089658405219626e-05,
+      "loss": 0.6867,
+      "step": 1805
+    },
+    {
+      "epoch": 1.7740355174525413,
+      "grad_norm": 0.25039657950401306,
+      "learning_rate": 8.073879040381839e-05,
+      "loss": 0.7027,
+      "step": 1810
+    },
+    {
+      "epoch": 1.77893447642376,
+      "grad_norm": 0.22185583412647247,
+      "learning_rate": 8.058073634617543e-05,
+      "loss": 0.6872,
+      "step": 1815
+    },
+    {
+      "epoch": 1.7838334353949785,
+      "grad_norm": 0.20697511732578278,
+      "learning_rate": 8.042242350351735e-05,
+      "loss": 0.669,
+      "step": 1820
+    },
+    {
+      "epoch": 1.788732394366197,
+      "grad_norm": 0.2226262092590332,
+      "learning_rate": 8.026385350275358e-05,
+      "loss": 0.6903,
+      "step": 1825
+    },
+    {
+      "epoch": 1.7936313533374157,
+      "grad_norm": 0.20571239292621613,
+      "learning_rate": 8.01050279734362e-05,
+      "loss": 0.6821,
+      "step": 1830
+    },
+    {
+      "epoch": 1.7985303123086345,
+      "grad_norm": 0.22728270292282104,
+      "learning_rate": 7.994594854774328e-05,
+      "loss": 0.6874,
+      "step": 1835
+    },
+    {
+      "epoch": 1.8034292712798532,
+      "grad_norm": 0.24331030249595642,
+      "learning_rate": 7.978661686046204e-05,
+      "loss": 0.6927,
+      "step": 1840
+    },
+    {
+      "epoch": 1.8083282302510717,
+      "grad_norm": 0.19782117009162903,
+      "learning_rate": 7.962703454897207e-05,
+      "loss": 0.6672,
+      "step": 1845
+    },
+    {
+      "epoch": 1.8132271892222902,
+      "grad_norm": 0.20845647156238556,
+      "learning_rate": 7.946720325322857e-05,
+      "loss": 0.6874,
+      "step": 1850
+    },
+    {
+      "epoch": 1.8132271892222902,
+      "eval_loss": 0.6555055379867554,
+      "eval_runtime": 15.6124,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 15.693,
+      "step": 1850
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 9.54956406476243e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null