Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +231 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b208fb04bd797b877fa1dfdacd8a72771192807ce16faf614c1db8f415c46813
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:652d63c68dfe1e35e6942371c8f9f4a9f19ab99ae5f4ddbcdfca63ce319f3780
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bda7e786e2e656f96080f96850aaef8ced5c1e58267af79f77f9d2d7ca8a316
 size 1054136250

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd325e085efecfd52fda63e3ae981a902519e53e5102f41867a1ca760f848916
 size 1054136250

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed14e15604e1097b80da74a65c68f380dc6bb673bf5694a945c25e7931ad5a75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d591cd4a87db6ff7862986fcbd71a7ea08ac34a6c4ca00eb88fbc6e4ccf1c5bd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb248e7cc2fe7b509c9e866be7b72af3b33225d8b86373c1a62393cc3a24f4da
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47df519d3e34f85833ffe9513be298918979811657719c019fec7ab68351e14
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7268816828727722,
-  "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 10.0,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,6 +346,232 @@
       "eval_samples_per_second": 23.528,
       "eval_steps_per_second": 23.528,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -365,7 +591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4801636770840576.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7210294008255005,
+  "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 16.666666666666668,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.528,
       "eval_steps_per_second": 23.528,
       "step": 450
+    },
+    {
+      "epoch": 10.222222222222221,
+      "grad_norm": 2.2311553955078125,
+      "learning_rate": 2.9996147467351836e-05,
+      "loss": 0.5062,
+      "step": 460
+    },
+    {
+      "epoch": 10.444444444444445,
+      "grad_norm": 1.4143763780593872,
+      "learning_rate": 2.9995930474939753e-05,
+      "loss": 0.4908,
+      "step": 470
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 1.9285305738449097,
+      "learning_rate": 2.9995707538619954e-05,
+      "loss": 0.6355,
+      "step": 480
+    },
+    {
+      "epoch": 10.88888888888889,
+      "grad_norm": 2.1390364170074463,
+      "learning_rate": 2.9995478658480802e-05,
+      "loss": 0.5531,
+      "step": 490
+    },
+    {
+      "epoch": 11.11111111111111,
+      "grad_norm": 1.8684849739074707,
+      "learning_rate": 2.9995243834613023e-05,
+      "loss": 0.5237,
+      "step": 500
+    },
+    {
+      "epoch": 11.333333333333334,
+      "grad_norm": 1.6750541925430298,
+      "learning_rate": 2.9995003067109687e-05,
+      "loss": 0.5385,
+      "step": 510
+    },
+    {
+      "epoch": 11.555555555555555,
+      "grad_norm": 2.6402785778045654,
+      "learning_rate": 2.9994756356066226e-05,
+      "loss": 0.5847,
+      "step": 520
+    },
+    {
+      "epoch": 11.777777777777779,
+      "grad_norm": 2.2594568729400635,
+      "learning_rate": 2.999450370158044e-05,
+      "loss": 0.5341,
+      "step": 530
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.5283032655715942,
+      "learning_rate": 2.9994245103752457e-05,
+      "loss": 0.5243,
+      "step": 540
+    },
+    {
+      "epoch": 12.222222222222221,
+      "grad_norm": 1.2468581199645996,
+      "learning_rate": 2.999398056268479e-05,
+      "loss": 0.5354,
+      "step": 550
+    },
+    {
+      "epoch": 12.444444444444445,
+      "grad_norm": 1.4768636226654053,
+      "learning_rate": 2.9993710078482286e-05,
+      "loss": 0.4149,
+      "step": 560
+    },
+    {
+      "epoch": 12.666666666666666,
+      "grad_norm": 3.385610580444336,
+      "learning_rate": 2.9993433651252164e-05,
+      "loss": 0.6199,
+      "step": 570
+    },
+    {
+      "epoch": 12.88888888888889,
+      "grad_norm": 1.4733967781066895,
+      "learning_rate": 2.9993151281103986e-05,
+      "loss": 0.5354,
+      "step": 580
+    },
+    {
+      "epoch": 13.11111111111111,
+      "grad_norm": 2.435899019241333,
+      "learning_rate": 2.9992862968149675e-05,
+      "loss": 0.4177,
+      "step": 590
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 2.4628303050994873,
+      "learning_rate": 2.9992568712503513e-05,
+      "loss": 0.5327,
+      "step": 600
+    },
+    {
+      "epoch": 13.333333333333334,
+      "eval_loss": 0.7213956117630005,
+      "eval_runtime": 0.4476,
+      "eval_samples_per_second": 22.343,
+      "eval_steps_per_second": 22.343,
+      "step": 600
+    },
+    {
+      "epoch": 13.555555555555555,
+      "grad_norm": 2.3349859714508057,
+      "learning_rate": 2.9992268514282122e-05,
+      "loss": 0.5655,
+      "step": 610
+    },
+    {
+      "epoch": 13.777777777777779,
+      "grad_norm": 2.215526580810547,
+      "learning_rate": 2.99919623736045e-05,
+      "loss": 0.4406,
+      "step": 620
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 2.2699978351593018,
+      "learning_rate": 2.9991650290591996e-05,
+      "loss": 0.6034,
+      "step": 630
+    },
+    {
+      "epoch": 14.222222222222221,
+      "grad_norm": 2.2520437240600586,
+      "learning_rate": 2.99913322653683e-05,
+      "loss": 0.492,
+      "step": 640
+    },
+    {
+      "epoch": 14.444444444444445,
+      "grad_norm": 1.8439189195632935,
+      "learning_rate": 2.9991008298059473e-05,
+      "loss": 0.5013,
+      "step": 650
+    },
+    {
+      "epoch": 14.666666666666666,
+      "grad_norm": 1.5318201780319214,
+      "learning_rate": 2.9990678388793924e-05,
+      "loss": 0.5316,
+      "step": 660
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 1.2852894067764282,
+      "learning_rate": 2.999034253770242e-05,
+      "loss": 0.4578,
+      "step": 670
+    },
+    {
+      "epoch": 15.11111111111111,
+      "grad_norm": 2.532104015350342,
+      "learning_rate": 2.9990000744918076e-05,
+      "loss": 0.4492,
+      "step": 680
+    },
+    {
+      "epoch": 15.333333333333334,
+      "grad_norm": 1.6051527261734009,
+      "learning_rate": 2.9989653010576372e-05,
+      "loss": 0.4531,
+      "step": 690
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 1.4627478122711182,
+      "learning_rate": 2.9989299334815138e-05,
+      "loss": 0.4804,
+      "step": 700
+    },
+    {
+      "epoch": 15.777777777777779,
+      "grad_norm": 2.238284111022949,
+      "learning_rate": 2.9988939717774558e-05,
+      "loss": 0.524,
+      "step": 710
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.3457872867584229,
+      "learning_rate": 2.9988574159597174e-05,
+      "loss": 0.5107,
+      "step": 720
+    },
+    {
+      "epoch": 16.22222222222222,
+      "grad_norm": 2.1465327739715576,
+      "learning_rate": 2.9988202660427887e-05,
+      "loss": 0.4642,
+      "step": 730
+    },
+    {
+      "epoch": 16.444444444444443,
+      "grad_norm": 3.066289186477661,
+      "learning_rate": 2.9987825220413937e-05,
+      "loss": 0.5349,
+      "step": 740
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 1.9061943292617798,
+      "learning_rate": 2.998744183970494e-05,
+      "loss": 0.4266,
+      "step": 750
+    },
+    {
+      "epoch": 16.666666666666668,
+      "eval_loss": 0.7210294008255005,
+      "eval_runtime": 0.405,
+      "eval_samples_per_second": 24.693,
+      "eval_steps_per_second": 24.693,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7981049240027136.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null