Model save

Browse files

Files changed (5) hide show

README.md +11 -11
all_results.json +5 -5
model.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +108 -59

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [bioformers/bioformer-16L](https://huggingface.co/bioformers/bioformer-16L) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.2560
 ## Model description
@@ -48,16 +48,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.0911        | 1.0   | 150  | 1.9936          |
-| 1.8617        | 2.0   | 300  | 2.1118          |
-| 1.6883        | 3.0   | 450  | 2.1467          |
-| 1.56          | 4.0   | 600  | 2.1087          |
-| 1.5605        | 5.0   | 750  | 2.1211          |
-| 1.4688        | 6.0   | 900  | 2.1083          |
-| 1.4312        | 7.0   | 1050 | 2.1463          |
-| 1.316         | 8.0   | 1200 | 2.1741          |
-| 1.2566        | 9.0   | 1350 | 2.1825          |
-| 1.313         | 10.0  | 1500 | 2.2560          |
 ### Framework versions

 This model is a fine-tuned version of [bioformers/bioformer-16L](https://huggingface.co/bioformers/bioformer-16L) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2537
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.0908        | 1.0   | 150  | 1.9890          |
+| 1.862         | 2.0   | 300  | 2.1129          |
+| 1.6906        | 3.0   | 450  | 2.1431          |
+| 1.5674        | 4.0   | 600  | 2.1108          |
+| 1.5622        | 5.0   | 750  | 2.1245          |
+| 1.4715        | 6.0   | 900  | 2.1117          |
+| 1.4321        | 7.0   | 1050 | 2.1577          |
+| 1.3189        | 8.0   | 1200 | 2.1733          |
+| 1.2598        | 9.0   | 1350 | 2.1789          |
+| 1.3167        | 10.0  | 1500 | 2.2537          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "total_flos": 2094383101378560.0,
-    "train_loss": 1.6940364990234376,
-    "train_runtime": 396.9392,
     "train_samples": 2386,
-    "train_samples_per_second": 60.11,
-    "train_steps_per_second": 3.779
 }

 {
     "epoch": 10.0,
+    "total_flos": 353880782323200.0,
+    "train_loss": 1.5547152099609376,
+    "train_runtime": 128.9033,
     "train_samples": 2386,
+    "train_samples_per_second": 185.1,
+    "train_steps_per_second": 11.637
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9a81adc5369301c31162224e009b3f7237593fcc8e33aeddd4984a6d06f4e35
 size 166232944

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0c7349141c449537f59bcdf3bdd7804606432f01c894f5ff5a0263a981a969e
 size 166232944

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "total_flos": 2094383101378560.0,
-    "train_loss": 1.6940364990234376,
-    "train_runtime": 396.9392,
     "train_samples": 2386,
-    "train_samples_per_second": 60.11,
-    "train_steps_per_second": 3.779
 }

 {
     "epoch": 10.0,
+    "total_flos": 353880782323200.0,
+    "train_loss": 1.5547152099609376,
+    "train_runtime": 128.9033,
     "train_samples": 2386,
+    "train_samples_per_second": 185.1,
+    "train_steps_per_second": 11.637
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 2.1501717567443848,
   "best_model_checkpoint": "./TAPT-V1-Bioformer-16L/checkpoint-150",
   "epoch": 10.0,
   "eval_steps": 500,
@@ -10,113 +10,162 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 2.1501717567443848,
-      "eval_runtime": 4.5889,
-      "eval_samples_per_second": 207.24,
-      "eval_steps_per_second": 13.075,
       "step": 150
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.2377817630767822,
-      "eval_runtime": 4.6252,
-      "eval_samples_per_second": 205.613,
-      "eval_steps_per_second": 12.972,
       "step": 300
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.2884342670440674,
-      "eval_runtime": 4.6743,
-      "eval_samples_per_second": 203.452,
-      "eval_steps_per_second": 12.836,
       "step": 450
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 14.384193420410156,
-      "learning_rate": 3.546099290780142e-05,
-      "loss": 2.0021,
-      "step": 500
     },
     {
       "epoch": 4.0,
-      "eval_loss": 2.244058847427368,
-      "eval_runtime": 4.6213,
-      "eval_samples_per_second": 205.788,
-      "eval_steps_per_second": 12.983,
       "step": 600
     },
     {
       "epoch": 5.0,
-      "eval_loss": 2.327418088912964,
-      "eval_runtime": 4.6275,
-      "eval_samples_per_second": 205.509,
-      "eval_steps_per_second": 12.966,
       "step": 750
     },
     {
       "epoch": 6.0,
-      "eval_loss": 2.332643985748291,
-      "eval_runtime": 4.6102,
-      "eval_samples_per_second": 206.283,
-      "eval_steps_per_second": 13.015,
       "step": 900
     },
     {
-      "epoch": 6.666666666666667,
-      "grad_norm": 16.610536575317383,
-      "learning_rate": 1.773049645390071e-05,
-      "loss": 1.6511,
-      "step": 1000
     },
     {
       "epoch": 7.0,
-      "eval_loss": 2.4305503368377686,
-      "eval_runtime": 4.6787,
-      "eval_samples_per_second": 203.26,
-      "eval_steps_per_second": 12.824,
       "step": 1050
     },
     {
       "epoch": 8.0,
-      "eval_loss": 2.2563867568969727,
-      "eval_runtime": 4.614,
-      "eval_samples_per_second": 206.111,
-      "eval_steps_per_second": 13.004,
       "step": 1200
     },
     {
       "epoch": 9.0,
-      "eval_loss": 2.320392608642578,
-      "eval_runtime": 4.6011,
-      "eval_samples_per_second": 206.691,
-      "eval_steps_per_second": 13.04,
       "step": 1350
     },
     {
       "epoch": 10.0,
-      "grad_norm": 24.13844871520996,
       "learning_rate": 0.0,
-      "loss": 1.4289,
       "step": 1500
     },
     {
       "epoch": 10.0,
-      "eval_loss": 2.1780459880828857,
-      "eval_runtime": 4.6567,
-      "eval_samples_per_second": 204.224,
-      "eval_steps_per_second": 12.885,
       "step": 1500
     },
     {
       "epoch": 10.0,
       "step": 1500,
-      "total_flos": 2094383101378560.0,
-      "train_loss": 1.6940364990234376,
-      "train_runtime": 396.9392,
-      "train_samples_per_second": 60.11,
-      "train_steps_per_second": 3.779
     }
   ],
   "logging_steps": 500,
@@ -136,7 +185,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2094383101378560.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.9935710430145264,
   "best_model_checkpoint": "./TAPT-V1-Bioformer-16L/checkpoint-150",
   "epoch": 10.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 24.22607421875,
+      "learning_rate": 4.787234042553192e-05,
+      "loss": 2.0911,
       "step": 150
     },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9935710430145264,
+      "eval_runtime": 1.0627,
+      "eval_samples_per_second": 894.891,
+      "eval_steps_per_second": 56.46,
+      "step": 150
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 23.085124969482422,
+      "learning_rate": 4.2553191489361704e-05,
+      "loss": 1.8617,
+      "step": 300
+    },
     {
       "epoch": 2.0,
+      "eval_loss": 2.1117889881134033,
+      "eval_runtime": 1.0282,
+      "eval_samples_per_second": 924.919,
+      "eval_steps_per_second": 58.355,
       "step": 300
     },
     {
       "epoch": 3.0,
+      "grad_norm": 48.75080108642578,
+      "learning_rate": 3.723404255319149e-05,
+      "loss": 1.6883,
       "step": 450
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 2.146700620651245,
+      "eval_runtime": 1.0388,
+      "eval_samples_per_second": 915.474,
+      "eval_steps_per_second": 57.759,
+      "step": 450
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 22.47693634033203,
+      "learning_rate": 3.191489361702128e-05,
+      "loss": 1.56,
+      "step": 600
     },
     {
       "epoch": 4.0,
+      "eval_loss": 2.108654022216797,
+      "eval_runtime": 1.0009,
+      "eval_samples_per_second": 950.138,
+      "eval_steps_per_second": 59.946,
       "step": 600
     },
     {
       "epoch": 5.0,
+      "grad_norm": 25.13186264038086,
+      "learning_rate": 2.6595744680851064e-05,
+      "loss": 1.5605,
+      "step": 750
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.1210551261901855,
+      "eval_runtime": 1.0438,
+      "eval_samples_per_second": 911.089,
+      "eval_steps_per_second": 57.482,
       "step": 750
     },
     {
       "epoch": 6.0,
+      "grad_norm": 42.86140441894531,
+      "learning_rate": 2.1276595744680852e-05,
+      "loss": 1.4688,
+      "step": 900
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.108290433883667,
+      "eval_runtime": 1.0161,
+      "eval_samples_per_second": 935.924,
+      "eval_steps_per_second": 59.049,
       "step": 900
     },
     {
+      "epoch": 7.0,
+      "grad_norm": 58.89534378051758,
+      "learning_rate": 1.595744680851064e-05,
+      "loss": 1.4312,
+      "step": 1050
     },
     {
       "epoch": 7.0,
+      "eval_loss": 2.1463418006896973,
+      "eval_runtime": 1.022,
+      "eval_samples_per_second": 930.534,
+      "eval_steps_per_second": 58.709,
       "step": 1050
     },
     {
       "epoch": 8.0,
+      "grad_norm": 34.060401916503906,
+      "learning_rate": 1.0638297872340426e-05,
+      "loss": 1.316,
       "step": 1200
     },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.1740951538085938,
+      "eval_runtime": 1.0283,
+      "eval_samples_per_second": 924.84,
+      "eval_steps_per_second": 58.35,
+      "step": 1200
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 37.21686935424805,
+      "learning_rate": 5.319148936170213e-06,
+      "loss": 1.2566,
+      "step": 1350
+    },
     {
       "epoch": 9.0,
+      "eval_loss": 2.1824934482574463,
+      "eval_runtime": 1.0427,
+      "eval_samples_per_second": 912.046,
+      "eval_steps_per_second": 57.542,
       "step": 1350
     },
     {
       "epoch": 10.0,
+      "grad_norm": 78.66870880126953,
       "learning_rate": 0.0,
+      "loss": 1.313,
       "step": 1500
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.2559754848480225,
+      "eval_runtime": 1.0323,
+      "eval_samples_per_second": 921.223,
+      "eval_steps_per_second": 58.121,
       "step": 1500
     },
     {
       "epoch": 10.0,
       "step": 1500,
+      "total_flos": 353880782323200.0,
+      "train_loss": 1.5547152099609376,
+      "train_runtime": 128.9033,
+      "train_samples_per_second": 185.1,
+      "train_steps_per_second": 11.637
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 353880782323200.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null