Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +231 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78ffc67243e9efe15ba19e9b31a035d2c93b575113b680c0e0bfd11442028482
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:e509195daf848fcb63ff142e78b630faccf6e51fad01b6e3b473f7c9b81e1da0
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a561696f8f803801ea7f2ab87e64e1172e029a7d45f1b06fdf82b9fa3338298
 size 1054136250

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ecbc32e205dad7c9ef52f7e61a7eb02340bf5159e891c7a802a3da51f2db68
 size 1054136250

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed14e15604e1097b80da74a65c68f380dc6bb673bf5694a945c25e7931ad5a75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d591cd4a87db6ff7862986fcbd71a7ea08ac34a6c4ca00eb88fbc6e4ccf1c5bd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb248e7cc2fe7b509c9e866be7b72af3b33225d8b86373c1a62393cc3a24f4da
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47df519d3e34f85833ffe9513be298918979811657719c019fec7ab68351e14
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.726381778717041,
-  "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 10.0,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,6 +346,232 @@
       "eval_samples_per_second": 24.653,
       "eval_steps_per_second": 24.653,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -365,7 +591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4801636770840576.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7210280299186707,
+  "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 16.666666666666668,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.653,
       "eval_steps_per_second": 24.653,
       "step": 450
+    },
+    {
+      "epoch": 10.222222222222221,
+      "grad_norm": 2.226635456085205,
+      "learning_rate": 2.9996147467351836e-05,
+      "loss": 0.506,
+      "step": 460
+    },
+    {
+      "epoch": 10.444444444444445,
+      "grad_norm": 1.4145069122314453,
+      "learning_rate": 2.9995930474939753e-05,
+      "loss": 0.4908,
+      "step": 470
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 1.9364039897918701,
+      "learning_rate": 2.9995707538619954e-05,
+      "loss": 0.6364,
+      "step": 480
+    },
+    {
+      "epoch": 10.88888888888889,
+      "grad_norm": 2.14816951751709,
+      "learning_rate": 2.9995478658480802e-05,
+      "loss": 0.5532,
+      "step": 490
+    },
+    {
+      "epoch": 11.11111111111111,
+      "grad_norm": 1.8744515180587769,
+      "learning_rate": 2.9995243834613023e-05,
+      "loss": 0.5234,
+      "step": 500
+    },
+    {
+      "epoch": 11.333333333333334,
+      "grad_norm": 1.6773265600204468,
+      "learning_rate": 2.9995003067109687e-05,
+      "loss": 0.5392,
+      "step": 510
+    },
+    {
+      "epoch": 11.555555555555555,
+      "grad_norm": 2.6416842937469482,
+      "learning_rate": 2.9994756356066226e-05,
+      "loss": 0.5848,
+      "step": 520
+    },
+    {
+      "epoch": 11.777777777777779,
+      "grad_norm": 2.257610321044922,
+      "learning_rate": 2.999450370158044e-05,
+      "loss": 0.5336,
+      "step": 530
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.5329607725143433,
+      "learning_rate": 2.9994245103752457e-05,
+      "loss": 0.5242,
+      "step": 540
+    },
+    {
+      "epoch": 12.222222222222221,
+      "grad_norm": 1.2473564147949219,
+      "learning_rate": 2.999398056268479e-05,
+      "loss": 0.5356,
+      "step": 550
+    },
+    {
+      "epoch": 12.444444444444445,
+      "grad_norm": 1.4698841571807861,
+      "learning_rate": 2.9993710078482286e-05,
+      "loss": 0.4155,
+      "step": 560
+    },
+    {
+      "epoch": 12.666666666666666,
+      "grad_norm": 3.38484525680542,
+      "learning_rate": 2.9993433651252164e-05,
+      "loss": 0.6201,
+      "step": 570
+    },
+    {
+      "epoch": 12.88888888888889,
+      "grad_norm": 1.4733773469924927,
+      "learning_rate": 2.9993151281103986e-05,
+      "loss": 0.5349,
+      "step": 580
+    },
+    {
+      "epoch": 13.11111111111111,
+      "grad_norm": 2.4409337043762207,
+      "learning_rate": 2.9992862968149675e-05,
+      "loss": 0.4179,
+      "step": 590
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 2.4499781131744385,
+      "learning_rate": 2.9992568712503513e-05,
+      "loss": 0.5321,
+      "step": 600
+    },
+    {
+      "epoch": 13.333333333333334,
+      "eval_loss": 0.7211434841156006,
+      "eval_runtime": 0.4323,
+      "eval_samples_per_second": 23.134,
+      "eval_steps_per_second": 23.134,
+      "step": 600
+    },
+    {
+      "epoch": 13.555555555555555,
+      "grad_norm": 2.347456455230713,
+      "learning_rate": 2.9992268514282122e-05,
+      "loss": 0.5653,
+      "step": 610
+    },
+    {
+      "epoch": 13.777777777777779,
+      "grad_norm": 2.2229528427124023,
+      "learning_rate": 2.99919623736045e-05,
+      "loss": 0.4408,
+      "step": 620
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 2.275893449783325,
+      "learning_rate": 2.9991650290591996e-05,
+      "loss": 0.6037,
+      "step": 630
+    },
+    {
+      "epoch": 14.222222222222221,
+      "grad_norm": 2.250699520111084,
+      "learning_rate": 2.99913322653683e-05,
+      "loss": 0.4922,
+      "step": 640
+    },
+    {
+      "epoch": 14.444444444444445,
+      "grad_norm": 1.8398470878601074,
+      "learning_rate": 2.9991008298059473e-05,
+      "loss": 0.5012,
+      "step": 650
+    },
+    {
+      "epoch": 14.666666666666666,
+      "grad_norm": 1.539143443107605,
+      "learning_rate": 2.9990678388793924e-05,
+      "loss": 0.5321,
+      "step": 660
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 1.2890745401382446,
+      "learning_rate": 2.999034253770242e-05,
+      "loss": 0.4581,
+      "step": 670
+    },
+    {
+      "epoch": 15.11111111111111,
+      "grad_norm": 2.539614200592041,
+      "learning_rate": 2.9990000744918076e-05,
+      "loss": 0.4486,
+      "step": 680
+    },
+    {
+      "epoch": 15.333333333333334,
+      "grad_norm": 1.6030837297439575,
+      "learning_rate": 2.9989653010576372e-05,
+      "loss": 0.4528,
+      "step": 690
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 1.46444571018219,
+      "learning_rate": 2.9989299334815138e-05,
+      "loss": 0.4805,
+      "step": 700
+    },
+    {
+      "epoch": 15.777777777777779,
+      "grad_norm": 2.233593702316284,
+      "learning_rate": 2.9988939717774558e-05,
+      "loss": 0.5241,
+      "step": 710
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.3459173440933228,
+      "learning_rate": 2.9988574159597174e-05,
+      "loss": 0.5107,
+      "step": 720
+    },
+    {
+      "epoch": 16.22222222222222,
+      "grad_norm": 2.139714241027832,
+      "learning_rate": 2.9988202660427887e-05,
+      "loss": 0.4647,
+      "step": 730
+    },
+    {
+      "epoch": 16.444444444444443,
+      "grad_norm": 3.066899061203003,
+      "learning_rate": 2.9987825220413937e-05,
+      "loss": 0.5351,
+      "step": 740
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 1.896189570426941,
+      "learning_rate": 2.998744183970494e-05,
+      "loss": 0.4269,
+      "step": 750
+    },
+    {
+      "epoch": 16.666666666666668,
+      "eval_loss": 0.7210280299186707,
+      "eval_runtime": 0.4276,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 23.389,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7981049240027136.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null