Training in progress, step 2400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95dc31204144af8854a2bd166b700ffe00c60e93c0807719622f465a8d64b4a6
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b7314d8b5f35930722e1c3d90a6061192742967a1457d59859792a0878fce57
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a5eb56f2c77d18a4cabe29b95f8b8d20c91a4f69adfa24c425612b6f1851b59
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:72e4902bbfa6e4e56f6e17ab398c622f809713c649baa3c6fd399c0f05448a5f
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d81f454917d58ee0468d722bb9dc06ecc2918f8b10aaeacf5f5f0694536198a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:684fee310519fed9cc8ee66dc9698ba16f4e9489a577756f84e7b21aa51e01d4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71e101b8bc114bf6ab419ec6879047895e309c841d9a023f2c8c16366e9111d1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba3530fffdeb6293174ae0b25b4bed0ccc682e606b6e29d3d50fec77e3192eef
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 97.82608695652173,
   "eval_steps": 150,
-  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2182,6 +2182,151 @@
       "EMA_steps_per_second": 25.124,
       "epoch": 97.82608695652173,
       "step": 2250
     }
   ],
   "logging_steps": 10,
@@ -2201,7 +2346,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.800933883385446e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 104.34782608695652,
   "eval_steps": 150,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.124,
       "epoch": 97.82608695652173,
       "step": 2250
+    },
+    {
+      "epoch": 98.26086956521739,
+      "grad_norm": 1.9422506093978882,
+      "learning_rate": 7.487548003627922e-06,
+      "loss": 0.2414,
+      "step": 2260
+    },
+    {
+      "epoch": 98.69565217391305,
+      "grad_norm": 1.745564341545105,
+      "learning_rate": 7.487516099090849e-06,
+      "loss": 0.278,
+      "step": 2270
+    },
+    {
+      "epoch": 99.1304347826087,
+      "grad_norm": 2.0466256141662598,
+      "learning_rate": 7.48748271071887e-06,
+      "loss": 0.2487,
+      "step": 2280
+    },
+    {
+      "epoch": 99.56521739130434,
+      "grad_norm": 2.3589112758636475,
+      "learning_rate": 7.48744783852522e-06,
+      "loss": 0.2882,
+      "step": 2290
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 2.6583240032196045,
+      "learning_rate": 7.487411482523721e-06,
+      "loss": 0.2324,
+      "step": 2300
+    },
+    {
+      "epoch": 100.43478260869566,
+      "grad_norm": 2.685478448867798,
+      "learning_rate": 7.4873736427287825e-06,
+      "loss": 0.2368,
+      "step": 2310
+    },
+    {
+      "epoch": 100.8695652173913,
+      "grad_norm": 1.7692900896072388,
+      "learning_rate": 7.487334319155404e-06,
+      "loss": 0.2694,
+      "step": 2320
+    },
+    {
+      "epoch": 101.30434782608695,
+      "grad_norm": 2.5517287254333496,
+      "learning_rate": 7.487293511819172e-06,
+      "loss": 0.2417,
+      "step": 2330
+    },
+    {
+      "epoch": 101.73913043478261,
+      "grad_norm": 1.7970623970031738,
+      "learning_rate": 7.4872512207362605e-06,
+      "loss": 0.2446,
+      "step": 2340
+    },
+    {
+      "epoch": 102.17391304347827,
+      "grad_norm": 1.792651653289795,
+      "learning_rate": 7.487207445923432e-06,
+      "loss": 0.2934,
+      "step": 2350
+    },
+    {
+      "epoch": 102.6086956521739,
+      "grad_norm": 2.1051220893859863,
+      "learning_rate": 7.487162187398039e-06,
+      "loss": 0.2844,
+      "step": 2360
+    },
+    {
+      "epoch": 103.04347826086956,
+      "grad_norm": 1.9311975240707397,
+      "learning_rate": 7.487115445178019e-06,
+      "loss": 0.2162,
+      "step": 2370
+    },
+    {
+      "epoch": 103.47826086956522,
+      "grad_norm": 2.12684965133667,
+      "learning_rate": 7.487067219281901e-06,
+      "loss": 0.2911,
+      "step": 2380
+    },
+    {
+      "epoch": 103.91304347826087,
+      "grad_norm": 2.0107476711273193,
+      "learning_rate": 7.4870175097287985e-06,
+      "loss": 0.2413,
+      "step": 2390
+    },
+    {
+      "epoch": 104.34782608695652,
+      "grad_norm": 1.9675108194351196,
+      "learning_rate": 7.486966316538416e-06,
+      "loss": 0.2557,
+      "step": 2400
+    },
+    {
+      "epoch": 104.34782608695652,
+      "eval_loss": 0.9136893153190613,
+      "eval_runtime": 0.4193,
+      "eval_samples_per_second": 23.849,
+      "eval_steps_per_second": 23.849,
+      "step": 2400
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4057,
+      "Start_State_samples_per_second": 24.646,
+      "Start_State_steps_per_second": 24.646,
+      "epoch": 104.34782608695652,
+      "step": 2400
+    },
+    {
+      "Raw_Model_loss": 0.9136893153190613,
+      "Raw_Model_runtime": 0.4082,
+      "Raw_Model_samples_per_second": 24.497,
+      "Raw_Model_steps_per_second": 24.497,
+      "epoch": 104.34782608695652,
+      "step": 2400
+    },
+    {
+      "SWA_loss": 0.7567933797836304,
+      "SWA_runtime": 0.4029,
+      "SWA_samples_per_second": 24.818,
+      "SWA_steps_per_second": 24.818,
+      "epoch": 104.34782608695652,
+      "step": 2400
+    },
+    {
+      "EMA_loss": 0.8605263829231262,
+      "EMA_runtime": 0.4051,
+      "EMA_samples_per_second": 24.683,
+      "EMA_steps_per_second": 24.683,
+      "epoch": 104.34782608695652,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.183025621814477e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null