Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step4650/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4650/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4650/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4650/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4650/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0a21dc5f4f9acf3af3f8980785056b6b5ada5cb15eef4540db5bca39c790390
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:83240b591b305b77a7f0e03a1614297d5289c0ea99896646801a0c1dbd574862
 size 1037269336

last-checkpoint/global_step4650/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e51d545c208c91904449605d111c48b0b9cd7cffe8820bff9335d42b333c838
+size 781993445

last-checkpoint/global_step4650/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:042c2f523987a0cc723abcd2f7298c860835da787e4bbd1db139579226329fb2
+size 781993509

last-checkpoint/global_step4650/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87022fc476e96c495276b8a125e2cd268dfd3b042f21127f9100c1570e463907
+size 781993509

last-checkpoint/global_step4650/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:557b588731c35b0d0eafa43689a8fb120627a74098c020a845f3338f31555e7c
+size 781993509

last-checkpoint/global_step4650/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:986e5ce5926507822e2b6e2503b40a1f334a287ff6957abefa9b133fbadf4b81
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4500~~


1	+ global_step4650

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3630f5c7f559df2743db6022b9a9e3a578f1caa3a824d427deb7eb53b5753113
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a1d5dc1450e1f7d92df3b8367376288a592dc32fb455c0cd4248d71d3a7f2b5
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a975041d5ccbda078ebb49cae6863f266b7176846aea763c1f5991e324beb6a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fb2912e97dbc350f2bdb8248e072bd5fc3be1df66f8fc3c1a669133cca92882
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e16d82cf7cd32b948d7f53723214355031cb0c2f352b62b817e45196b5c3bed
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e97f3af51e8b6ba933c0395cf8132efd073aae835daafe97b9b1543a75390d4e
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2faeda1cf20088c59a4c59ca63cd8875d237d2179a7055592aef1e315f61c7ea
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:29aafcf8ce3f67acef842d3fa0b0a4c6e670568793675e69ea643de91260101d
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e70fa6096403ae68870c39096182c6dd70befee0d4111f312991f4b6364fbfa
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a589015430e6f0d6c31bfd6d790e8fd16af3732cfc9fd2552a05ca53c4825d5
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.89194917678833,
   "best_model_checkpoint": null,
-  "epoch": 0.6541648495420846,
   "eval_steps": 50,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7028,6 +7028,240 @@
       "eval_samples_per_second": 170.525,
       "eval_steps_per_second": 10.693,
       "step": 4500
     }
   ],
   "logging_steps": 5,
@@ -7056,7 +7290,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1728234225273405e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.8841668367385864,
   "best_model_checkpoint": null,
+  "epoch": 0.6759703445268208,
   "eval_steps": 50,
+  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 170.525,
       "eval_steps_per_second": 10.693,
       "step": 4500
+    },
+    {
+      "epoch": 0.6548916993749091,
+      "grad_norm": 2.508161783218384,
+      "learning_rate": 5.873522555612962e-05,
+      "loss": 2.2274,
+      "step": 4505
+    },
+    {
+      "epoch": 0.6556185492077337,
+      "grad_norm": 2.5135767459869385,
+      "learning_rate": 5.8656915655531224e-05,
+      "loss": 2.0161,
+      "step": 4510
+    },
+    {
+      "epoch": 0.6563453990405582,
+      "grad_norm": 2.4507250785827637,
+      "learning_rate": 5.8578584208798255e-05,
+      "loss": 1.9389,
+      "step": 4515
+    },
+    {
+      "epoch": 0.6570722488733828,
+      "grad_norm": 2.4963390827178955,
+      "learning_rate": 5.850023141313007e-05,
+      "loss": 2.2685,
+      "step": 4520
+    },
+    {
+      "epoch": 0.6577990987062073,
+      "grad_norm": 2.3876497745513916,
+      "learning_rate": 5.842185746577973e-05,
+      "loss": 2.1684,
+      "step": 4525
+    },
+    {
+      "epoch": 0.6585259485390318,
+      "grad_norm": 2.5659289360046387,
+      "learning_rate": 5.834346256405354e-05,
+      "loss": 2.0895,
+      "step": 4530
+    },
+    {
+      "epoch": 0.6592527983718564,
+      "grad_norm": 2.480208396911621,
+      "learning_rate": 5.826504690531059e-05,
+      "loss": 2.086,
+      "step": 4535
+    },
+    {
+      "epoch": 0.6599796482046809,
+      "grad_norm": 2.4734959602355957,
+      "learning_rate": 5.818661068696221e-05,
+      "loss": 2.1213,
+      "step": 4540
+    },
+    {
+      "epoch": 0.6607064980375055,
+      "grad_norm": 2.8239712715148926,
+      "learning_rate": 5.810815410647147e-05,
+      "loss": 2.0349,
+      "step": 4545
+    },
+    {
+      "epoch": 0.66143334787033,
+      "grad_norm": 2.229339122772217,
+      "learning_rate": 5.8029677361352714e-05,
+      "loss": 1.9909,
+      "step": 4550
+    },
+    {
+      "epoch": 0.66143334787033,
+      "eval_loss": 1.8908016681671143,
+      "eval_runtime": 22.1348,
+      "eval_samples_per_second": 149.132,
+      "eval_steps_per_second": 9.352,
+      "step": 4550
+    },
+    {
+      "epoch": 0.6621601977031545,
+      "grad_norm": 2.306365966796875,
+      "learning_rate": 5.795118064917109e-05,
+      "loss": 1.9745,
+      "step": 4555
+    },
+    {
+      "epoch": 0.662887047535979,
+      "grad_norm": 2.618732213973999,
+      "learning_rate": 5.787266416754193e-05,
+      "loss": 2.1639,
+      "step": 4560
+    },
+    {
+      "epoch": 0.6636138973688036,
+      "grad_norm": 2.4831111431121826,
+      "learning_rate": 5.779412811413042e-05,
+      "loss": 1.8808,
+      "step": 4565
+    },
+    {
+      "epoch": 0.6643407472016282,
+      "grad_norm": 2.3205296993255615,
+      "learning_rate": 5.771557268665096e-05,
+      "loss": 1.9686,
+      "step": 4570
+    },
+    {
+      "epoch": 0.6650675970344527,
+      "grad_norm": 2.1423285007476807,
+      "learning_rate": 5.763699808286676e-05,
+      "loss": 1.9517,
+      "step": 4575
+    },
+    {
+      "epoch": 0.6657944468672772,
+      "grad_norm": 2.134899854660034,
+      "learning_rate": 5.755840450058927e-05,
+      "loss": 2.0311,
+      "step": 4580
+    },
+    {
+      "epoch": 0.6665212967001017,
+      "grad_norm": 2.3795955181121826,
+      "learning_rate": 5.747979213767777e-05,
+      "loss": 1.9214,
+      "step": 4585
+    },
+    {
+      "epoch": 0.6672481465329263,
+      "grad_norm": 2.3388452529907227,
+      "learning_rate": 5.740116119203877e-05,
+      "loss": 2.1742,
+      "step": 4590
+    },
+    {
+      "epoch": 0.6679749963657509,
+      "grad_norm": 2.438502073287964,
+      "learning_rate": 5.732251186162558e-05,
+      "loss": 1.9072,
+      "step": 4595
+    },
+    {
+      "epoch": 0.6687018461985754,
+      "grad_norm": 2.352613925933838,
+      "learning_rate": 5.7243844344437806e-05,
+      "loss": 2.162,
+      "step": 4600
+    },
+    {
+      "epoch": 0.6687018461985754,
+      "eval_loss": 1.893505334854126,
+      "eval_runtime": 19.1578,
+      "eval_samples_per_second": 172.305,
+      "eval_steps_per_second": 10.805,
+      "step": 4600
+    },
+    {
+      "epoch": 0.6694286960313999,
+      "grad_norm": 2.3778982162475586,
+      "learning_rate": 5.716515883852082e-05,
+      "loss": 2.0784,
+      "step": 4605
+    },
+    {
+      "epoch": 0.6701555458642244,
+      "grad_norm": 2.6638474464416504,
+      "learning_rate": 5.708645554196528e-05,
+      "loss": 2.0468,
+      "step": 4610
+    },
+    {
+      "epoch": 0.670882395697049,
+      "grad_norm": 2.4324584007263184,
+      "learning_rate": 5.700773465290667e-05,
+      "loss": 2.0943,
+      "step": 4615
+    },
+    {
+      "epoch": 0.6716092455298736,
+      "grad_norm": 2.2958381175994873,
+      "learning_rate": 5.692899636952473e-05,
+      "loss": 2.0988,
+      "step": 4620
+    },
+    {
+      "epoch": 0.6723360953626981,
+      "grad_norm": 2.202683448791504,
+      "learning_rate": 5.6850240890042966e-05,
+      "loss": 2.1533,
+      "step": 4625
+    },
+    {
+      "epoch": 0.6730629451955226,
+      "grad_norm": 1.9483098983764648,
+      "learning_rate": 5.677146841272821e-05,
+      "loss": 1.9827,
+      "step": 4630
+    },
+    {
+      "epoch": 0.6737897950283471,
+      "grad_norm": 2.550309658050537,
+      "learning_rate": 5.669267913589012e-05,
+      "loss": 1.9718,
+      "step": 4635
+    },
+    {
+      "epoch": 0.6745166448611717,
+      "grad_norm": 2.50044846534729,
+      "learning_rate": 5.661387325788056e-05,
+      "loss": 2.0441,
+      "step": 4640
+    },
+    {
+      "epoch": 0.6752434946939962,
+      "grad_norm": 2.406494140625,
+      "learning_rate": 5.653505097709326e-05,
+      "loss": 1.9735,
+      "step": 4645
+    },
+    {
+      "epoch": 0.6759703445268208,
+      "grad_norm": 2.304180383682251,
+      "learning_rate": 5.645621249196321e-05,
+      "loss": 1.9182,
+      "step": 4650
+    },
+    {
+      "epoch": 0.6759703445268208,
+      "eval_loss": 1.8841668367385864,
+      "eval_runtime": 18.863,
+      "eval_samples_per_second": 174.999,
+      "eval_steps_per_second": 10.974,
+      "step": 4650
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.211591505395843e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null