Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +295 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:372891febfadfccbabac9570878fa86511c85965c83b7adbeef55c8d100f4f2d
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e70fb031762fcfd8c2a1f24a8bd93eb87a81e3c17768955c081c28620420fc2
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:620d4f511180616a4534055c09585878071e140c18fdd5dc3beb5a71366c356b
 size 1054136250

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1fe1a49d9560e0ca1782d1d6f8e87b1fe1f66e212ac402fe9c344df8a527655
 size 1054136250

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cf065c84ff75b4c8bc24f08fcd1880a75e81b5b99444434709d4c17d68aad0f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2273afa8515c993e20ab8b02a38f3946423176fb53d9323aa6e0510256a9c8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb248e7cc2fe7b509c9e866be7b72af3b33225d8b86373c1a62393cc3a24f4da
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47df519d3e34f85833ffe9513be298918979811657719c019fec7ab68351e14
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7259252071380615,
-  "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 10.0,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,6 +402,296 @@
       "EMA_steps_per_second": 22.503,
       "epoch": 10.0,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -421,7 +711,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4801636770840576.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7214915752410889,
+  "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 16.666666666666668,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 22.503,
       "epoch": 10.0,
       "step": 450
+    },
+    {
+      "epoch": 10.222222222222221,
+      "grad_norm": 2.220747470855713,
+      "learning_rate": 2.9996147467351836e-05,
+      "loss": 0.5056,
+      "step": 460
+    },
+    {
+      "epoch": 10.444444444444445,
+      "grad_norm": 1.4205608367919922,
+      "learning_rate": 2.9995930474939753e-05,
+      "loss": 0.4901,
+      "step": 470
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 1.9306081533432007,
+      "learning_rate": 2.9995707538619954e-05,
+      "loss": 0.6361,
+      "step": 480
+    },
+    {
+      "epoch": 10.88888888888889,
+      "grad_norm": 2.1457133293151855,
+      "learning_rate": 2.9995478658480802e-05,
+      "loss": 0.5528,
+      "step": 490
+    },
+    {
+      "epoch": 11.11111111111111,
+      "grad_norm": 1.8677959442138672,
+      "learning_rate": 2.9995243834613023e-05,
+      "loss": 0.5233,
+      "step": 500
+    },
+    {
+      "epoch": 11.333333333333334,
+      "grad_norm": 1.6708972454071045,
+      "learning_rate": 2.9995003067109687e-05,
+      "loss": 0.5387,
+      "step": 510
+    },
+    {
+      "epoch": 11.555555555555555,
+      "grad_norm": 2.6434991359710693,
+      "learning_rate": 2.9994756356066226e-05,
+      "loss": 0.5847,
+      "step": 520
+    },
+    {
+      "epoch": 11.777777777777779,
+      "grad_norm": 2.2601070404052734,
+      "learning_rate": 2.999450370158044e-05,
+      "loss": 0.5341,
+      "step": 530
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.5335863828659058,
+      "learning_rate": 2.9994245103752457e-05,
+      "loss": 0.5242,
+      "step": 540
+    },
+    {
+      "epoch": 12.222222222222221,
+      "grad_norm": 1.2394074201583862,
+      "learning_rate": 2.999398056268479e-05,
+      "loss": 0.5356,
+      "step": 550
+    },
+    {
+      "epoch": 12.444444444444445,
+      "grad_norm": 1.472650170326233,
+      "learning_rate": 2.9993710078482286e-05,
+      "loss": 0.415,
+      "step": 560
+    },
+    {
+      "epoch": 12.666666666666666,
+      "grad_norm": 3.3844995498657227,
+      "learning_rate": 2.9993433651252164e-05,
+      "loss": 0.6192,
+      "step": 570
+    },
+    {
+      "epoch": 12.88888888888889,
+      "grad_norm": 1.4811444282531738,
+      "learning_rate": 2.9993151281103986e-05,
+      "loss": 0.5351,
+      "step": 580
+    },
+    {
+      "epoch": 13.11111111111111,
+      "grad_norm": 2.4430384635925293,
+      "learning_rate": 2.9992862968149675e-05,
+      "loss": 0.4177,
+      "step": 590
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 2.456298351287842,
+      "learning_rate": 2.9992568712503513e-05,
+      "loss": 0.5317,
+      "step": 600
+    },
+    {
+      "epoch": 13.333333333333334,
+      "eval_loss": 0.7220126986503601,
+      "eval_runtime": 0.5023,
+      "eval_samples_per_second": 19.91,
+      "eval_steps_per_second": 19.91,
+      "step": 600
+    },
+    {
+      "Start_State_loss": 0.7391407489776611,
+      "Start_State_runtime": 0.4727,
+      "Start_State_samples_per_second": 21.154,
+      "Start_State_steps_per_second": 21.154,
+      "epoch": 13.333333333333334,
+      "step": 600
+    },
+    {
+      "Raw_Model_loss": 0.7220126986503601,
+      "Raw_Model_runtime": 0.5347,
+      "Raw_Model_samples_per_second": 18.703,
+      "Raw_Model_steps_per_second": 18.703,
+      "epoch": 13.333333333333334,
+      "step": 600
+    },
+    {
+      "SWA_loss": 0.7282296419143677,
+      "SWA_runtime": 0.5752,
+      "SWA_samples_per_second": 17.384,
+      "SWA_steps_per_second": 17.384,
+      "epoch": 13.333333333333334,
+      "step": 600
+    },
+    {
+      "EMA_loss": 0.7385488748550415,
+      "EMA_runtime": 0.5662,
+      "EMA_samples_per_second": 17.661,
+      "EMA_steps_per_second": 17.661,
+      "epoch": 13.333333333333334,
+      "step": 600
+    },
+    {
+      "epoch": 13.555555555555555,
+      "grad_norm": 2.3377010822296143,
+      "learning_rate": 2.9992268514282122e-05,
+      "loss": 0.565,
+      "step": 610
+    },
+    {
+      "epoch": 13.777777777777779,
+      "grad_norm": 2.2196319103240967,
+      "learning_rate": 2.99919623736045e-05,
+      "loss": 0.441,
+      "step": 620
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 2.2767350673675537,
+      "learning_rate": 2.9991650290591996e-05,
+      "loss": 0.6033,
+      "step": 630
+    },
+    {
+      "epoch": 14.222222222222221,
+      "grad_norm": 2.253643035888672,
+      "learning_rate": 2.99913322653683e-05,
+      "loss": 0.4925,
+      "step": 640
+    },
+    {
+      "epoch": 14.444444444444445,
+      "grad_norm": 1.8424692153930664,
+      "learning_rate": 2.9991008298059473e-05,
+      "loss": 0.5007,
+      "step": 650
+    },
+    {
+      "epoch": 14.666666666666666,
+      "grad_norm": 1.5401960611343384,
+      "learning_rate": 2.9990678388793924e-05,
+      "loss": 0.5318,
+      "step": 660
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 1.2824598550796509,
+      "learning_rate": 2.999034253770242e-05,
+      "loss": 0.4575,
+      "step": 670
+    },
+    {
+      "epoch": 15.11111111111111,
+      "grad_norm": 2.5211098194122314,
+      "learning_rate": 2.9990000744918076e-05,
+      "loss": 0.449,
+      "step": 680
+    },
+    {
+      "epoch": 15.333333333333334,
+      "grad_norm": 1.6035919189453125,
+      "learning_rate": 2.9989653010576372e-05,
+      "loss": 0.4529,
+      "step": 690
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 1.4720438718795776,
+      "learning_rate": 2.9989299334815138e-05,
+      "loss": 0.4804,
+      "step": 700
+    },
+    {
+      "epoch": 15.777777777777779,
+      "grad_norm": 2.241570472717285,
+      "learning_rate": 2.9988939717774558e-05,
+      "loss": 0.524,
+      "step": 710
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.3463960886001587,
+      "learning_rate": 2.9988574159597174e-05,
+      "loss": 0.5105,
+      "step": 720
+    },
+    {
+      "epoch": 16.22222222222222,
+      "grad_norm": 2.1436588764190674,
+      "learning_rate": 2.9988202660427887e-05,
+      "loss": 0.4644,
+      "step": 730
+    },
+    {
+      "epoch": 16.444444444444443,
+      "grad_norm": 3.0679702758789062,
+      "learning_rate": 2.9987825220413937e-05,
+      "loss": 0.5349,
+      "step": 740
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 1.908082127571106,
+      "learning_rate": 2.998744183970494e-05,
+      "loss": 0.4263,
+      "step": 750
+    },
+    {
+      "epoch": 16.666666666666668,
+      "eval_loss": 0.7214915752410889,
+      "eval_runtime": 0.4155,
+      "eval_samples_per_second": 24.069,
+      "eval_steps_per_second": 24.069,
+      "step": 750
+    },
+    {
+      "Start_State_loss": 0.7391407489776611,
+      "Start_State_runtime": 0.4325,
+      "Start_State_samples_per_second": 23.123,
+      "Start_State_steps_per_second": 23.123,
+      "epoch": 16.666666666666668,
+      "step": 750
+    },
+    {
+      "Raw_Model_loss": 0.7214915752410889,
+      "Raw_Model_runtime": 0.4148,
+      "Raw_Model_samples_per_second": 24.108,
+      "Raw_Model_steps_per_second": 24.108,
+      "epoch": 16.666666666666668,
+      "step": 750
+    },
+    {
+      "SWA_loss": 0.7257974147796631,
+      "SWA_runtime": 0.4246,
+      "SWA_samples_per_second": 23.553,
+      "SWA_steps_per_second": 23.553,
+      "epoch": 16.666666666666668,
+      "step": 750
+    },
+    {
+      "EMA_loss": 0.7391572594642639,
+      "EMA_runtime": 0.4233,
+      "EMA_samples_per_second": 23.622,
+      "EMA_steps_per_second": 23.622,
+      "epoch": 16.666666666666668,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7981049240027136.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null