Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step9900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9900/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +316 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:386a6380325bc3dff1a7a5f881832a0696cbe9be2672febd8c95a996479adb3e
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:80d57dd1f2aa0bde9f3bd55de9a262b8de6b8609d2e7c1343bf3751d42242354
 size 1037269336

last-checkpoint/global_step9900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d04fea83d85a84f793425ad94dd0b5eabd724b841c0109c2f5dfdd72f0429f15
+size 781993445

last-checkpoint/global_step9900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:724d23b792de6b58f7369f916910aedbdb64d653cae44381266f59e3251da219
+size 781993509

last-checkpoint/global_step9900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f615a7cbf6fa0b3bc685fe9e2f265dfd87c265b0db5cb00b804400ef20670f8
+size 781993509

last-checkpoint/global_step9900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5462fbd5dd6265ec39a6a030b1dcfff55166fdbc452d28cdc03c5103b4835fed
+size 781993509

last-checkpoint/global_step9900/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:126e49f2ceba5214fc20df2deca8ca69a6fee6bcb0ef9f50375b18efba3677f0
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step9700~~


1	+ global_step9900

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b56969535e9a8e88cd3829c988a0a37451d46c9a48a232e2bf2ff895e958e53f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d91dc1dd14f8f32c0f2217452eabdba7d9d5c72d5834c18f2d9a544844a06ea2
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac5d72eb18852fad4db4fcc6f4250d07f49de688916884e0bd15cf332644e3c4
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb9b54face23724bdaca5ec09618f36e5c2b8f499be332a0f9475dbaf3eefc21
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e093e8dca30af25bb4868596fab940bd5b96385b2a5252906d4fb7506ec6e3c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:f28748778c6ae6a9269ab98073eb87225303dfa4aad70ad7fd421f531885ed96
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a02a2ce27f65153b8be850fa84fb66458319a4fbe52b6b4116118eb9d4b7ccda
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae8077b24d1ab7d135f5d3fd1b77e547df789862744ffa297b2d183e7403fce2
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5c6f3cc57d69dd40ef86ebd5faf9e78cc6a0d89512a7f5fd9a4c13cda1f059a
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0bb734018af63817744f06e0b869d778449a4d39f667f516ea0fba502652490
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.521620512008667,
   "best_model_checkpoint": null,
-  "epoch": 1.4100886756796047,
   "eval_steps": 50,
-  "global_step": 9700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15140,6 +15140,318 @@
       "eval_samples_per_second": 173.601,
       "eval_steps_per_second": 10.886,
       "step": 9700
     }
   ],
   "logging_steps": 5,
@@ -15168,7 +15480,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5325929674917806e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.5213963985443115,
   "best_model_checkpoint": null,
+  "epoch": 1.4391626689925863,
   "eval_steps": 50,
+  "global_step": 9900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.601,
       "eval_steps_per_second": 10.886,
       "step": 9700
+    },
+    {
+      "epoch": 1.410815525512429,
+      "grad_norm": 2.4059064388275146,
+      "learning_rate": 2.20844720632845e-07,
+      "loss": 1.6476,
+      "step": 9705
+    },
+    {
+      "epoch": 1.4115423753452536,
+      "grad_norm": 2.4945123195648193,
+      "learning_rate": 2.134520232126146e-07,
+      "loss": 1.6076,
+      "step": 9710
+    },
+    {
+      "epoch": 1.4122692251780782,
+      "grad_norm": 2.8330612182617188,
+      "learning_rate": 2.0618491100792133e-07,
+      "loss": 1.5924,
+      "step": 9715
+    },
+    {
+      "epoch": 1.4129960750109027,
+      "grad_norm": 2.243333339691162,
+      "learning_rate": 1.990434023137036e-07,
+      "loss": 1.5927,
+      "step": 9720
+    },
+    {
+      "epoch": 1.4137229248437273,
+      "grad_norm": 2.5298187732696533,
+      "learning_rate": 1.9202751510870365e-07,
+      "loss": 1.5937,
+      "step": 9725
+    },
+    {
+      "epoch": 1.4144497746765519,
+      "grad_norm": 2.333787679672241,
+      "learning_rate": 1.851372670554175e-07,
+      "loss": 1.5879,
+      "step": 9730
+    },
+    {
+      "epoch": 1.4151766245093764,
+      "grad_norm": 2.3179080486297607,
+      "learning_rate": 1.7837267550002254e-07,
+      "loss": 1.3676,
+      "step": 9735
+    },
+    {
+      "epoch": 1.4159034743422008,
+      "grad_norm": 2.2587573528289795,
+      "learning_rate": 1.7173375747237766e-07,
+      "loss": 1.6639,
+      "step": 9740
+    },
+    {
+      "epoch": 1.4166303241750255,
+      "grad_norm": 2.4788784980773926,
+      "learning_rate": 1.6522052968595648e-07,
+      "loss": 1.6174,
+      "step": 9745
+    },
+    {
+      "epoch": 1.4173571740078499,
+      "grad_norm": 2.38806414604187,
+      "learning_rate": 1.5883300853778604e-07,
+      "loss": 1.7383,
+      "step": 9750
+    },
+    {
+      "epoch": 1.4173571740078499,
+      "eval_loss": 1.52242112159729,
+      "eval_runtime": 19.1417,
+      "eval_samples_per_second": 172.451,
+      "eval_steps_per_second": 10.814,
+      "step": 9750
+    },
+    {
+      "epoch": 1.4180840238406744,
+      "grad_norm": 2.2191879749298096,
+      "learning_rate": 1.5257121010846365e-07,
+      "loss": 1.5705,
+      "step": 9755
+    },
+    {
+      "epoch": 1.418810873673499,
+      "grad_norm": 2.3617305755615234,
+      "learning_rate": 1.464351501620456e-07,
+      "loss": 1.5469,
+      "step": 9760
+    },
+    {
+      "epoch": 1.4195377235063236,
+      "grad_norm": 2.5067806243896484,
+      "learning_rate": 1.404248441460582e-07,
+      "loss": 1.7018,
+      "step": 9765
+    },
+    {
+      "epoch": 1.4202645733391481,
+      "grad_norm": 2.475242853164673,
+      "learning_rate": 1.3454030719143674e-07,
+      "loss": 1.6947,
+      "step": 9770
+    },
+    {
+      "epoch": 1.4209914231719727,
+      "grad_norm": 2.2841944694519043,
+      "learning_rate": 1.2878155411250307e-07,
+      "loss": 1.6853,
+      "step": 9775
+    },
+    {
+      "epoch": 1.4217182730047973,
+      "grad_norm": 2.1120128631591797,
+      "learning_rate": 1.231485994069046e-07,
+      "loss": 1.6585,
+      "step": 9780
+    },
+    {
+      "epoch": 1.4224451228376218,
+      "grad_norm": 2.586662769317627,
+      "learning_rate": 1.1764145725560866e-07,
+      "loss": 1.699,
+      "step": 9785
+    },
+    {
+      "epoch": 1.4231719726704464,
+      "grad_norm": 2.748775005340576,
+      "learning_rate": 1.1226014152282453e-07,
+      "loss": 1.5495,
+      "step": 9790
+    },
+    {
+      "epoch": 1.4238988225032707,
+      "grad_norm": 2.5237104892730713,
+      "learning_rate": 1.0700466575602029e-07,
+      "loss": 1.5464,
+      "step": 9795
+    },
+    {
+      "epoch": 1.4246256723360955,
+      "grad_norm": 2.8664605617523193,
+      "learning_rate": 1.018750431858393e-07,
+      "loss": 1.6628,
+      "step": 9800
+    },
+    {
+      "epoch": 1.4246256723360955,
+      "eval_loss": 1.5222878456115723,
+      "eval_runtime": 19.036,
+      "eval_samples_per_second": 173.408,
+      "eval_steps_per_second": 10.874,
+      "step": 9800
+    },
+    {
+      "epoch": 1.4253525221689198,
+      "grad_norm": 2.546454668045044,
+      "learning_rate": 9.687128672611134e-08,
+      "loss": 1.7066,
+      "step": 9805
+    },
+    {
+      "epoch": 1.4260793720017444,
+      "grad_norm": 2.584137201309204,
+      "learning_rate": 9.199340897378033e-08,
+      "loss": 1.6069,
+      "step": 9810
+    },
+    {
+      "epoch": 1.426806221834569,
+      "grad_norm": 2.591409683227539,
+      "learning_rate": 8.724142220889871e-08,
+      "loss": 1.5393,
+      "step": 9815
+    },
+    {
+      "epoch": 1.4275330716673935,
+      "grad_norm": 2.2875685691833496,
+      "learning_rate": 8.261533839458856e-08,
+      "loss": 1.4082,
+      "step": 9820
+    },
+    {
+      "epoch": 1.428259921500218,
+      "grad_norm": 2.495056390762329,
+      "learning_rate": 7.811516917700819e-08,
+      "loss": 1.6082,
+      "step": 9825
+    },
+    {
+      "epoch": 1.4289867713330426,
+      "grad_norm": 2.618781328201294,
+      "learning_rate": 7.374092588532993e-08,
+      "loss": 1.7317,
+      "step": 9830
+    },
+    {
+      "epoch": 1.4297136211658672,
+      "grad_norm": 2.6624369621276855,
+      "learning_rate": 6.949261953171231e-08,
+      "loss": 1.6049,
+      "step": 9835
+    },
+    {
+      "epoch": 1.4304404709986915,
+      "grad_norm": 3.055304527282715,
+      "learning_rate": 6.537026081124995e-08,
+      "loss": 1.6846,
+      "step": 9840
+    },
+    {
+      "epoch": 1.4311673208315163,
+      "grad_norm": 2.291666269302368,
+      "learning_rate": 6.137386010197918e-08,
+      "loss": 1.5199,
+      "step": 9845
+    },
+    {
+      "epoch": 1.4318941706643407,
+      "grad_norm": 2.2404119968414307,
+      "learning_rate": 5.75034274648391e-08,
+      "loss": 1.6049,
+      "step": 9850
+    },
+    {
+      "epoch": 1.4318941706643407,
+      "eval_loss": 1.522445797920227,
+      "eval_runtime": 18.961,
+      "eval_samples_per_second": 174.094,
+      "eval_steps_per_second": 10.917,
+      "step": 9850
+    },
+    {
+      "epoch": 1.4326210204971652,
+      "grad_norm": 2.296211004257202,
+      "learning_rate": 5.37589726436382e-08,
+      "loss": 1.6874,
+      "step": 9855
+    },
+    {
+      "epoch": 1.4333478703299898,
+      "grad_norm": 2.5468204021453857,
+      "learning_rate": 5.014050506503209e-08,
+      "loss": 1.6244,
+      "step": 9860
+    },
+    {
+      "epoch": 1.4340747201628143,
+      "grad_norm": 2.6297662258148193,
+      "learning_rate": 4.664803383851241e-08,
+      "loss": 1.574,
+      "step": 9865
+    },
+    {
+      "epoch": 1.434801569995639,
+      "grad_norm": 2.9105236530303955,
+      "learning_rate": 4.328156775637343e-08,
+      "loss": 1.6189,
+      "step": 9870
+    },
+    {
+      "epoch": 1.4355284198284635,
+      "grad_norm": 2.4492199420928955,
+      "learning_rate": 4.004111529368426e-08,
+      "loss": 1.5159,
+      "step": 9875
+    },
+    {
+      "epoch": 1.436255269661288,
+      "grad_norm": 2.902602195739746,
+      "learning_rate": 3.6926684608283267e-08,
+      "loss": 1.6313,
+      "step": 9880
+    },
+    {
+      "epoch": 1.4369821194941126,
+      "grad_norm": 2.4516420364379883,
+      "learning_rate": 3.393828354074474e-08,
+      "loss": 1.6638,
+      "step": 9885
+    },
+    {
+      "epoch": 1.4377089693269371,
+      "grad_norm": 2.564882516860962,
+      "learning_rate": 3.107591961436216e-08,
+      "loss": 1.5475,
+      "step": 9890
+    },
+    {
+      "epoch": 1.4384358191597615,
+      "grad_norm": 2.7581264972686768,
+      "learning_rate": 2.8339600035137093e-08,
+      "loss": 1.6877,
+      "step": 9895
+    },
+    {
+      "epoch": 1.4391626689925863,
+      "grad_norm": 2.6273791790008545,
+      "learning_rate": 2.5729331691756963e-08,
+      "loss": 1.7434,
+      "step": 9900
+    },
+    {
+      "epoch": 1.4391626689925863,
+      "eval_loss": 1.5213963985443115,
+      "eval_runtime": 18.8476,
+      "eval_samples_per_second": 175.142,
+      "eval_steps_per_second": 10.983,
+      "step": 9900
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.5848701774263747e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null