epochmetrics/task-embedder

Browse files

Files changed (7) hide show

README.md +20 -6
all_results.json +14 -14
eval_results.json +8 -8
model.safetensors +1 -1
train_results.json +7 -7
trainer_state.json +248 -24
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,14 +13,14 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/lyr2lbb4)
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/lyr2lbb4)
 # task-embedder
 This model is a fine-tuned version of [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 9.8114
-- Accuracy: 0.0068
 ## Model description
@@ -45,13 +45,27 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 12.3606       | 1.0   | 2    | 10.2947         | 0.0083   |
 ### Framework versions

 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/cpytiehg)
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/cpytiehg)
 # task-embedder
 This model is a fine-tuned version of [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.0565
+- Accuracy: 0.6332
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 15
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 5.6287        | 1.0   | 171  | 4.0112          | 0.3787   |
+| 3.7578        | 2.0   | 342  | 3.2693          | 0.4648   |
+| 3.2266        | 3.0   | 513  | 2.9233          | 0.5083   |
+| 2.9062        | 4.0   | 684  | 2.6422          | 0.5454   |
+| 2.7046        | 5.0   | 855  | 2.5057          | 0.5657   |
+| 2.5462        | 6.0   | 1026 | 2.3794          | 0.5850   |
+| 2.4348        | 7.0   | 1197 | 2.2906          | 0.5981   |
+| 2.3406        | 8.0   | 1368 | 2.2580          | 0.6043   |
+| 2.2544        | 9.0   | 1539 | 2.1751          | 0.6137   |
+| 2.2031        | 10.0  | 1710 | 2.1368          | 0.6225   |
+| 2.1693        | 11.0  | 1881 | 2.1410          | 0.6185   |
+| 2.1243        | 12.0  | 2052 | 2.0609          | 0.6291   |
+| 2.086         | 13.0  | 2223 | 2.0226          | 0.6354   |
+| 2.0771        | 14.0  | 2394 | 2.0461          | 0.6358   |
+| 2.0692        | 15.0  | 2565 | 2.0071          | 0.6430   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.006756756756756757,
-    "eval_loss": 9.811368942260742,
-    "eval_runtime": 0.0832,
-    "eval_samples": 2,
-    "eval_samples_per_second": 24.028,
-    "eval_steps_per_second": 12.014,
-    "perplexity": 18239.939418355945,
-    "total_flos": 3158457937920.0,
-    "train_loss": 12.360578536987305,
-    "train_runtime": 15.0775,
-    "train_samples": 12,
-    "train_samples_per_second": 0.796,
-    "train_steps_per_second": 0.133
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.6331559235166568,
+    "eval_loss": 2.056515693664551,
+    "eval_runtime": 8.1808,
+    "eval_samples": 350,
+    "eval_samples_per_second": 42.783,
+    "eval_steps_per_second": 5.378,
+    "perplexity": 7.818679619302798,
+    "total_flos": 5397015001420800.0,
+    "train_loss": 2.701929186845151,
+    "train_runtime": 4016.0696,
+    "train_samples": 1367,
+    "train_samples_per_second": 5.106,
+    "train_steps_per_second": 0.639
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.006756756756756757,
-    "eval_loss": 9.811368942260742,
-    "eval_runtime": 0.0832,
-    "eval_samples": 2,
-    "eval_samples_per_second": 24.028,
-    "eval_steps_per_second": 12.014,
-    "perplexity": 18239.939418355945
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.6331559235166568,
+    "eval_loss": 2.056515693664551,
+    "eval_runtime": 8.1808,
+    "eval_samples": 350,
+    "eval_samples_per_second": 42.783,
+    "eval_steps_per_second": 5.378,
+    "perplexity": 7.818679619302798
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc9adc08401ae19f43369e8858f4255c0dd7cc93b1bef6612e1be3f3c225912d
 size 438097372

 version https://git-lfs.github.com/spec/v1
+oid sha256:2dcd47ba207a3f860f8ae2d2805dcf6163dae73d4d41393602f3b1985f1fa65a
 size 438097372

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "total_flos": 3158457937920.0,
-    "train_loss": 12.360578536987305,
-    "train_runtime": 15.0775,
-    "train_samples": 12,
-    "train_samples_per_second": 0.796,
-    "train_steps_per_second": 0.133
 }

 {
+    "epoch": 15.0,
+    "total_flos": 5397015001420800.0,
+    "train_loss": 2.701929186845151,
+    "train_runtime": 4016.0696,
+    "train_samples": 1367,
+    "train_samples_per_second": 5.106,
+    "train_steps_per_second": 0.639
 }

trainer_state.json CHANGED Viewed

@@ -1,43 +1,267 @@
 {
-  "best_metric": 10.294657707214355,
-  "best_model_checkpoint": "epochmetrics/task-embedder/checkpoint-2",
-  "epoch": 1.0,
   "eval_steps": 1,
-  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 26.22691535949707,
-      "learning_rate": 0.0,
-      "loss": 12.3606,
-      "step": 2
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.008333333333333333,
-      "eval_loss": 10.294657707214355,
-      "eval_runtime": 0.0948,
-      "eval_samples_per_second": 21.096,
-      "eval_steps_per_second": 10.548,
-      "step": 2
     },
     {
-      "epoch": 1.0,
-      "step": 2,
-      "total_flos": 3158457937920.0,
-      "train_loss": 12.360578536987305,
-      "train_runtime": 15.0775,
-      "train_samples_per_second": 0.796,
-      "train_steps_per_second": 0.133
     }
   ],
   "logging_steps": 1,
-  "max_steps": 2,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -51,7 +275,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3158457937920.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.0070760250091553,
+  "best_model_checkpoint": "epochmetrics/task-embedder/checkpoint-2565",
+  "epoch": 15.0,
   "eval_steps": 1,
+  "global_step": 2565,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.0819196701049805,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 5.6287,
+      "step": 171
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.3786586320237909,
+      "eval_loss": 4.011183738708496,
+      "eval_runtime": 13.9675,
+      "eval_samples_per_second": 25.058,
+      "eval_steps_per_second": 3.15,
+      "step": 171
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 5.902393341064453,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 3.7578,
+      "step": 342
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4647582296424634,
+      "eval_loss": 3.269301414489746,
+      "eval_runtime": 14.2546,
+      "eval_samples_per_second": 24.554,
+      "eval_steps_per_second": 3.087,
+      "step": 342
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 6.104726314544678,
+      "learning_rate": 4e-05,
+      "loss": 3.2266,
+      "step": 513
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.508273029532564,
+      "eval_loss": 2.9233286380767822,
+      "eval_runtime": 8.5864,
+      "eval_samples_per_second": 40.762,
+      "eval_steps_per_second": 5.124,
+      "step": 513
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 5.560727119445801,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 2.9062,
+      "step": 684
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5453717994380466,
+      "eval_loss": 2.642239809036255,
+      "eval_runtime": 8.5093,
+      "eval_samples_per_second": 41.131,
+      "eval_steps_per_second": 5.171,
+      "step": 684
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.642611980438232,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 2.7046,
+      "step": 855
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5657459867799811,
+      "eval_loss": 2.505657434463501,
+      "eval_runtime": 8.4686,
+      "eval_samples_per_second": 41.329,
+      "eval_steps_per_second": 5.196,
+      "step": 855
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 5.382541656494141,
+      "learning_rate": 3e-05,
+      "loss": 2.5462,
+      "step": 1026
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5850446167634338,
+      "eval_loss": 2.3794305324554443,
+      "eval_runtime": 8.6097,
+      "eval_samples_per_second": 40.652,
+      "eval_steps_per_second": 5.111,
+      "step": 1026
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 5.883482933044434,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 2.4348,
+      "step": 1197
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5981030022732617,
+      "eval_loss": 2.290560722351074,
+      "eval_runtime": 14.2401,
+      "eval_samples_per_second": 24.579,
+      "eval_steps_per_second": 3.09,
+      "step": 1197
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 4.892796993255615,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 2.3406,
+      "step": 1368
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6042614409580466,
+      "eval_loss": 2.2579710483551025,
+      "eval_runtime": 14.1291,
+      "eval_samples_per_second": 24.772,
+      "eval_steps_per_second": 3.114,
+      "step": 1368
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 5.444692611694336,
+      "learning_rate": 2e-05,
+      "loss": 2.2544,
+      "step": 1539
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6137461398368833,
+      "eval_loss": 2.1750903129577637,
+      "eval_runtime": 18.0466,
+      "eval_samples_per_second": 19.394,
+      "eval_steps_per_second": 2.438,
+      "step": 1539
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 5.572258949279785,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.2031,
+      "step": 1710
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.6225209429183713,
+      "eval_loss": 2.136831045150757,
+      "eval_runtime": 8.6198,
+      "eval_samples_per_second": 40.604,
+      "eval_steps_per_second": 5.105,
+      "step": 1710
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 5.637876510620117,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.1693,
+      "step": 1881
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.6184971098265896,
+      "eval_loss": 2.140977144241333,
+      "eval_runtime": 8.6333,
+      "eval_samples_per_second": 40.541,
+      "eval_steps_per_second": 5.097,
+      "step": 1881
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 5.16227388381958,
+      "learning_rate": 1e-05,
+      "loss": 2.1243,
+      "step": 2052
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6290763561437572,
+      "eval_loss": 2.0609424114227295,
+      "eval_runtime": 8.8768,
+      "eval_samples_per_second": 39.429,
+      "eval_steps_per_second": 4.957,
+      "step": 2052
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 5.17201566696167,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 2.086,
+      "step": 2223
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6354386788761055,
+      "eval_loss": 2.0226352214813232,
+      "eval_runtime": 9.1353,
+      "eval_samples_per_second": 38.313,
+      "eval_steps_per_second": 4.817,
+      "step": 2223
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 5.382483959197998,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 2.0771,
+      "step": 2394
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.6357628841792445,
+      "eval_loss": 2.046103000640869,
+      "eval_runtime": 15.2839,
+      "eval_samples_per_second": 22.9,
+      "eval_steps_per_second": 2.879,
+      "step": 2394
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 5.431705474853516,
+      "learning_rate": 0.0,
+      "loss": 2.0692,
+      "step": 2565
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6430424528301887,
+      "eval_loss": 2.0070760250091553,
+      "eval_runtime": 13.9029,
+      "eval_samples_per_second": 25.175,
+      "eval_steps_per_second": 3.165,
+      "step": 2565
+    },
+    {
+      "epoch": 15.0,
+      "step": 2565,
+      "total_flos": 5397015001420800.0,
+      "train_loss": 2.701929186845151,
+      "train_runtime": 4016.0696,
+      "train_samples_per_second": 5.106,
+      "train_steps_per_second": 0.639
     }
   ],
   "logging_steps": 1,
+  "max_steps": 2565,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5397015001420800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae20a66062df2f9870b9fab34dde38bf56aa6321b6fcb8b3642f23f85b750b47
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4fb11e754eb9b0cbb02a9fe5c043c7d02b1a27c6cb263e621b2865fa7ba734c
 size 5176