Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +231 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0a817c581575976140d04be9f8f7ba7492037dc8b27c5ac9447dc4a5cd37390
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:30e9a32c7ace367ac54556497b6e13b78b2f8b408557408675f838d3ec5f9b23
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfc8fc9a32875616557dedc7c543f53d34b936cfe93c365db588cc06451752a4
 size 1054136250

 version https://git-lfs.github.com/spec/v1
+oid sha256:df60ae0c9d8fd500d82d7788ecbb69eaf299a163749500f941f27a9471ce8aea
 size 1054136250

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed14e15604e1097b80da74a65c68f380dc6bb673bf5694a945c25e7931ad5a75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d591cd4a87db6ff7862986fcbd71a7ea08ac34a6c4ca00eb88fbc6e4ccf1c5bd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb248e7cc2fe7b509c9e866be7b72af3b33225d8b86373c1a62393cc3a24f4da
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47df519d3e34f85833ffe9513be298918979811657719c019fec7ab68351e14
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7253496646881104,
-  "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 10.0,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,6 +346,232 @@
       "eval_samples_per_second": 23.034,
       "eval_steps_per_second": 23.034,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -365,7 +591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4801636770840576.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7189859747886658,
+  "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 16.666666666666668,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.034,
       "eval_steps_per_second": 23.034,
       "step": 450
+    },
+    {
+      "epoch": 10.222222222222221,
+      "grad_norm": 2.204841136932373,
+      "learning_rate": 2.9996147467351836e-05,
+      "loss": 0.5053,
+      "step": 460
+    },
+    {
+      "epoch": 10.444444444444445,
+      "grad_norm": 1.4360098838806152,
+      "learning_rate": 2.9995930474939753e-05,
+      "loss": 0.4896,
+      "step": 470
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 1.959652304649353,
+      "learning_rate": 2.9995707538619954e-05,
+      "loss": 0.633,
+      "step": 480
+    },
+    {
+      "epoch": 10.88888888888889,
+      "grad_norm": 2.1388063430786133,
+      "learning_rate": 2.9995478658480802e-05,
+      "loss": 0.5542,
+      "step": 490
+    },
+    {
+      "epoch": 11.11111111111111,
+      "grad_norm": 1.8569694757461548,
+      "learning_rate": 2.9995243834613023e-05,
+      "loss": 0.5232,
+      "step": 500
+    },
+    {
+      "epoch": 11.333333333333334,
+      "grad_norm": 1.6938109397888184,
+      "learning_rate": 2.9995003067109687e-05,
+      "loss": 0.5378,
+      "step": 510
+    },
+    {
+      "epoch": 11.555555555555555,
+      "grad_norm": 2.6563644409179688,
+      "learning_rate": 2.9994756356066226e-05,
+      "loss": 0.5849,
+      "step": 520
+    },
+    {
+      "epoch": 11.777777777777779,
+      "grad_norm": 2.306159734725952,
+      "learning_rate": 2.999450370158044e-05,
+      "loss": 0.5339,
+      "step": 530
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.56302011013031,
+      "learning_rate": 2.9994245103752457e-05,
+      "loss": 0.5232,
+      "step": 540
+    },
+    {
+      "epoch": 12.222222222222221,
+      "grad_norm": 1.2411634922027588,
+      "learning_rate": 2.999398056268479e-05,
+      "loss": 0.5338,
+      "step": 550
+    },
+    {
+      "epoch": 12.444444444444445,
+      "grad_norm": 1.4717185497283936,
+      "learning_rate": 2.9993710078482286e-05,
+      "loss": 0.4147,
+      "step": 560
+    },
+    {
+      "epoch": 12.666666666666666,
+      "grad_norm": 3.4422967433929443,
+      "learning_rate": 2.9993433651252164e-05,
+      "loss": 0.617,
+      "step": 570
+    },
+    {
+      "epoch": 12.88888888888889,
+      "grad_norm": 1.4745866060256958,
+      "learning_rate": 2.9993151281103986e-05,
+      "loss": 0.5331,
+      "step": 580
+    },
+    {
+      "epoch": 13.11111111111111,
+      "grad_norm": 2.415964126586914,
+      "learning_rate": 2.9992862968149675e-05,
+      "loss": 0.4185,
+      "step": 590
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 2.451449394226074,
+      "learning_rate": 2.9992568712503513e-05,
+      "loss": 0.5305,
+      "step": 600
+    },
+    {
+      "epoch": 13.333333333333334,
+      "eval_loss": 0.7197805047035217,
+      "eval_runtime": 0.5423,
+      "eval_samples_per_second": 18.439,
+      "eval_steps_per_second": 18.439,
+      "step": 600
+    },
+    {
+      "epoch": 13.555555555555555,
+      "grad_norm": 2.3019049167633057,
+      "learning_rate": 2.9992268514282122e-05,
+      "loss": 0.564,
+      "step": 610
+    },
+    {
+      "epoch": 13.777777777777779,
+      "grad_norm": 2.2061996459960938,
+      "learning_rate": 2.99919623736045e-05,
+      "loss": 0.4402,
+      "step": 620
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 2.279230833053589,
+      "learning_rate": 2.9991650290591996e-05,
+      "loss": 0.6005,
+      "step": 630
+    },
+    {
+      "epoch": 14.222222222222221,
+      "grad_norm": 2.3055777549743652,
+      "learning_rate": 2.99913322653683e-05,
+      "loss": 0.4924,
+      "step": 640
+    },
+    {
+      "epoch": 14.444444444444445,
+      "grad_norm": 1.8434686660766602,
+      "learning_rate": 2.9991008298059473e-05,
+      "loss": 0.4996,
+      "step": 650
+    },
+    {
+      "epoch": 14.666666666666666,
+      "grad_norm": 1.5389118194580078,
+      "learning_rate": 2.9990678388793924e-05,
+      "loss": 0.5316,
+      "step": 660
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 1.262115716934204,
+      "learning_rate": 2.999034253770242e-05,
+      "loss": 0.4556,
+      "step": 670
+    },
+    {
+      "epoch": 15.11111111111111,
+      "grad_norm": 2.54207444190979,
+      "learning_rate": 2.9990000744918076e-05,
+      "loss": 0.4512,
+      "step": 680
+    },
+    {
+      "epoch": 15.333333333333334,
+      "grad_norm": 1.6045324802398682,
+      "learning_rate": 2.9989653010576372e-05,
+      "loss": 0.4533,
+      "step": 690
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 1.448301076889038,
+      "learning_rate": 2.9989299334815138e-05,
+      "loss": 0.4781,
+      "step": 700
+    },
+    {
+      "epoch": 15.777777777777779,
+      "grad_norm": 2.217859983444214,
+      "learning_rate": 2.9988939717774558e-05,
+      "loss": 0.5219,
+      "step": 710
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.3610327243804932,
+      "learning_rate": 2.9988574159597174e-05,
+      "loss": 0.5093,
+      "step": 720
+    },
+    {
+      "epoch": 16.22222222222222,
+      "grad_norm": 2.149242877960205,
+      "learning_rate": 2.9988202660427887e-05,
+      "loss": 0.4626,
+      "step": 730
+    },
+    {
+      "epoch": 16.444444444444443,
+      "grad_norm": 3.087571382522583,
+      "learning_rate": 2.9987825220413937e-05,
+      "loss": 0.5344,
+      "step": 740
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 1.8864201307296753,
+      "learning_rate": 2.998744183970494e-05,
+      "loss": 0.4238,
+      "step": 750
+    },
+    {
+      "epoch": 16.666666666666668,
+      "eval_loss": 0.7189859747886658,
+      "eval_runtime": 0.4357,
+      "eval_samples_per_second": 22.95,
+      "eval_steps_per_second": 22.95,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7981049240027136.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null