Training in progress, epoch 2, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +240 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:984e68604b6af75b411f5f11e88160ab14ffa793f8bd5c647df8bebecd3b18c0
 size 364930784

 version https://git-lfs.github.com/spec/v1
+oid sha256:5910e0a282e4df32eef0552c8b3139c44b0817839e4759d05b0434f2de570164
 size 364930784

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78109ddd55b2deba0ced0e197023af2a86391881ee5edd68293eec75d7854127
 size 185530443

 version https://git-lfs.github.com/spec/v1
+oid sha256:985a31fdc1b7c2050bb3569366a09e87d28883fa8a2c2d07e33459da0df3290e
 size 185530443

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b842000329cb019d1d2edb7e10becc78690394c9823dbe2e83a8aa37ec27bc0b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:cede62ea1101cd7c1a2b08854972b212cc8c8285489e3cdb8d86af1f7b9e8d9b
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b81f32a8b1ffb9abe5759b7adf548cb057f3278522c4461efa97ab5f32eb6c06
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a96cad50eef2317d5b06d359661294bcf4e10472a2fe4aa3e2c96c25afaf8fe4
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19bd092966b887f951d3dc5d6ca48eca53fa0ae856668ccafe6b6441f719ca4e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:653c374a59cc448606819acd79f0d50657fef2b2d01bddc9aff0cb92325491aa
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c493249489e6bc5240397221441de65fc413ddc008851f514ca031c390927c3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b0ed1fb8354c06bf0eab3c9b2dbb6b716f1ca765c82ae4407881d1f78bd018a
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca51c1849ad1ddc701e6aec02fafde7c902a86faef1a8a581fbe7052164735c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dbed6f9227c6453885e3fcec169430d1d02615fe4f493d1e5b46420af58b713
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.5373325943946838,
   "best_model_checkpoint": null,
-  "epoch": 2.838929152492235,
   "eval_steps": 50,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7496,6 +7496,240 @@
       "eval_samples_per_second": 425.989,
       "eval_steps_per_second": 13.324,
       "step": 4800
     }
   ],
   "logging_steps": 5,
@@ -7510,7 +7744,7 @@
         "early_stopping_threshold": 0.0001
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -7519,12 +7753,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.7562856206877327e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.5373095273971558,
   "best_model_checkpoint": null,
+  "epoch": 2.9276734210915545,
   "eval_steps": 50,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 425.989,
       "eval_steps_per_second": 13.324,
       "step": 4800
+    },
+    {
+      "epoch": 2.841887294778879,
+      "grad_norm": 0.22534750401973724,
+      "learning_rate": 1.6351597887982846e-06,
+      "loss": 0.581,
+      "step": 4805
+    },
+    {
+      "epoch": 2.8448454370655227,
+      "grad_norm": 0.23928098380565643,
+      "learning_rate": 1.5529003378542404e-06,
+      "loss": 0.5837,
+      "step": 4810
+    },
+    {
+      "epoch": 2.847803579352167,
+      "grad_norm": 0.21647833287715912,
+      "learning_rate": 1.4727559570263333e-06,
+      "loss": 0.5701,
+      "step": 4815
+    },
+    {
+      "epoch": 2.850761721638811,
+      "grad_norm": 0.2176506221294403,
+      "learning_rate": 1.3947274699220398e-06,
+      "loss": 0.5626,
+      "step": 4820
+    },
+    {
+      "epoch": 2.8537198639254546,
+      "grad_norm": 0.21065934002399445,
+      "learning_rate": 1.3188156784048088e-06,
+      "loss": 0.5686,
+      "step": 4825
+    },
+    {
+      "epoch": 2.856678006212099,
+      "grad_norm": 0.22182585299015045,
+      "learning_rate": 1.2450213625857274e-06,
+      "loss": 0.5761,
+      "step": 4830
+    },
+    {
+      "epoch": 2.8596361484987427,
+      "grad_norm": 0.21298271417617798,
+      "learning_rate": 1.1733452808156017e-06,
+      "loss": 0.5867,
+      "step": 4835
+    },
+    {
+      "epoch": 2.8625942907853865,
+      "grad_norm": 0.229048490524292,
+      "learning_rate": 1.103788169677036e-06,
+      "loss": 0.589,
+      "step": 4840
+    },
+    {
+      "epoch": 2.865552433072031,
+      "grad_norm": 0.2213655412197113,
+      "learning_rate": 1.0363507439769986e-06,
+      "loss": 0.5597,
+      "step": 4845
+    },
+    {
+      "epoch": 2.8685105753586746,
+      "grad_norm": 0.21822868287563324,
+      "learning_rate": 9.7103369673936e-07,
+      "loss": 0.5712,
+      "step": 4850
+    },
+    {
+      "epoch": 2.8685105753586746,
+      "eval_loss": 0.5373578667640686,
+      "eval_runtime": 15.1783,
+      "eval_samples_per_second": 427.584,
+      "eval_steps_per_second": 13.374,
+      "step": 4850
+    },
+    {
+      "epoch": 2.871468717645319,
+      "grad_norm": 0.22016650438308716,
+      "learning_rate": 9.078376991978266e-07,
+      "loss": 0.5587,
+      "step": 4855
+    },
+    {
+      "epoch": 2.8744268599319627,
+      "grad_norm": 0.23947712779045105,
+      "learning_rate": 8.467634007890796e-07,
+      "loss": 0.5841,
+      "step": 4860
+    },
+    {
+      "epoch": 2.877385002218607,
+      "grad_norm": 0.2243824005126953,
+      "learning_rate": 7.878114291460063e-07,
+      "loss": 0.5736,
+      "step": 4865
+    },
+    {
+      "epoch": 2.8803431445052508,
+      "grad_norm": 0.22133906185626984,
+      "learning_rate": 7.309823900913461e-07,
+      "loss": 0.5764,
+      "step": 4870
+    },
+    {
+      "epoch": 2.8833012867918946,
+      "grad_norm": 0.21976634860038757,
+      "learning_rate": 6.76276867631405e-07,
+      "loss": 0.5699,
+      "step": 4875
+    },
+    {
+      "epoch": 2.886259429078539,
+      "grad_norm": 0.22008314728736877,
+      "learning_rate": 6.236954239500471e-07,
+      "loss": 0.5527,
+      "step": 4880
+    },
+    {
+      "epoch": 2.8892175713651826,
+      "grad_norm": 0.22807146608829498,
+      "learning_rate": 5.732385994029618e-07,
+      "loss": 0.5943,
+      "step": 4885
+    },
+    {
+      "epoch": 2.8921757136518265,
+      "grad_norm": 0.22938776016235352,
+      "learning_rate": 5.249069125121154e-07,
+      "loss": 0.5825,
+      "step": 4890
+    },
+    {
+      "epoch": 2.8951338559384707,
+      "grad_norm": 0.20941923558712006,
+      "learning_rate": 4.787008599603642e-07,
+      "loss": 0.5685,
+      "step": 4895
+    },
+    {
+      "epoch": 2.8980919982251145,
+      "grad_norm": 0.22085338830947876,
+      "learning_rate": 4.346209165863655e-07,
+      "loss": 0.5588,
+      "step": 4900
+    },
+    {
+      "epoch": 2.8980919982251145,
+      "eval_loss": 0.5373329520225525,
+      "eval_runtime": 15.2559,
+      "eval_samples_per_second": 425.409,
+      "eval_steps_per_second": 13.306,
+      "step": 4900
+    },
+    {
+      "epoch": 2.9010501405117584,
+      "grad_norm": 0.22424866259098053,
+      "learning_rate": 3.926675353797443e-07,
+      "loss": 0.5725,
+      "step": 4905
+    },
+    {
+      "epoch": 2.9040082827984026,
+      "grad_norm": 0.2182874232530594,
+      "learning_rate": 3.5284114747641856e-07,
+      "loss": 0.5582,
+      "step": 4910
+    },
+    {
+      "epoch": 2.9069664250850464,
+      "grad_norm": 0.21973784267902374,
+      "learning_rate": 3.151421621541335e-07,
+      "loss": 0.5684,
+      "step": 4915
+    },
+    {
+      "epoch": 2.9099245673716907,
+      "grad_norm": 0.2083846479654312,
+      "learning_rate": 2.795709668283172e-07,
+      "loss": 0.578,
+      "step": 4920
+    },
+    {
+      "epoch": 2.9128827096583345,
+      "grad_norm": 0.2196836769580841,
+      "learning_rate": 2.4612792704798287e-07,
+      "loss": 0.5603,
+      "step": 4925
+    },
+    {
+      "epoch": 2.9158408519449788,
+      "grad_norm": 0.22254040837287903,
+      "learning_rate": 2.1481338649216013e-07,
+      "loss": 0.5526,
+      "step": 4930
+    },
+    {
+      "epoch": 2.9187989942316226,
+      "grad_norm": 0.2200893610715866,
+      "learning_rate": 1.8562766696618855e-07,
+      "loss": 0.5661,
+      "step": 4935
+    },
+    {
+      "epoch": 2.9217571365182664,
+      "grad_norm": 0.22102928161621094,
+      "learning_rate": 1.5857106839847136e-07,
+      "loss": 0.5905,
+      "step": 4940
+    },
+    {
+      "epoch": 2.9247152788049107,
+      "grad_norm": 0.2244081199169159,
+      "learning_rate": 1.3364386883745962e-07,
+      "loss": 0.5743,
+      "step": 4945
+    },
+    {
+      "epoch": 2.9276734210915545,
+      "grad_norm": 0.23028399050235748,
+      "learning_rate": 1.1084632444868224e-07,
+      "loss": 0.5852,
+      "step": 4950
+    },
+    {
+      "epoch": 2.9276734210915545,
+      "eval_loss": 0.5373095273971558,
+      "eval_runtime": 15.2077,
+      "eval_samples_per_second": 426.758,
+      "eval_steps_per_second": 13.349,
+      "step": 4950
     }
   ],
   "logging_steps": 5,
         "early_stopping_threshold": 0.0001
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.873445665417724e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null