End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +15 -0
eval_results.json +15 -0
train_results.json +9 -0
trainer_state.json +192 -0

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [bioformers/bioformer-16L](https://huggingface.co/bioformers/bioformer-16L) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5275
 ## Model description

 This model is a fine-tuned version of [bioformers/bioformer-16L](https://huggingface.co/bioformers/bioformer-16L) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5163
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 1.5163155794143677,
+    "eval_runtime": 2.6863,
+    "eval_samples": 951,
+    "eval_samples_per_second": 869.586,
+    "eval_steps_per_second": 54.349,
+    "perplexity": 4.555410190307917,
+    "total_flos": 1463189669724672.0,
+    "train_loss": 1.6345905356211206,
+    "train_runtime": 393.0437,
+    "train_samples": 2386,
+    "train_samples_per_second": 237.684,
+    "train_steps_per_second": 14.858
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 1.5163155794143677,
+    "eval_runtime": 2.6863,
+    "eval_samples": 951,
+    "eval_samples_per_second": 869.586,
+    "eval_steps_per_second": 54.349,
+    "perplexity": 4.555410190307917,
+    "total_flos": 1463189669724672.0,
+    "train_loss": 1.6345905356211206,
+    "train_runtime": 393.0437,
+    "train_samples": 2386,
+    "train_samples_per_second": 237.684,
+    "train_steps_per_second": 14.858
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 1463189669724672.0,
+    "train_loss": 1.6345905356211206,
+    "train_runtime": 393.0437,
+    "train_samples": 2386,
+    "train_samples_per_second": 237.684,
+    "train_steps_per_second": 14.858
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,192 @@

+{
+  "best_metric": 1.5274702310562134,
+  "best_model_checkpoint": "./TAPT-V2-Bioformer-16L/checkpoint-5840",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 5840,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 12.16779613494873,
+      "learning_rate": 4.787757332847513e-05,
+      "loss": 2.1462,
+      "step": 584
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9269795417785645,
+      "eval_runtime": 2.8226,
+      "eval_samples_per_second": 827.596,
+      "eval_steps_per_second": 51.725,
+      "step": 584
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 12.047762870788574,
+      "learning_rate": 4.2557842958644564e-05,
+      "loss": 1.9329,
+      "step": 1168
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8425631523132324,
+      "eval_runtime": 2.8753,
+      "eval_samples_per_second": 812.429,
+      "eval_steps_per_second": 50.777,
+      "step": 1168
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 12.399864196777344,
+      "learning_rate": 3.7238112588813996e-05,
+      "loss": 1.7986,
+      "step": 1752
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.7600960731506348,
+      "eval_runtime": 2.808,
+      "eval_samples_per_second": 831.901,
+      "eval_steps_per_second": 51.994,
+      "step": 1752
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 16.085290908813477,
+      "learning_rate": 3.191838221898342e-05,
+      "loss": 1.6702,
+      "step": 2336
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.7089483737945557,
+      "eval_runtime": 2.7865,
+      "eval_samples_per_second": 838.318,
+      "eval_steps_per_second": 52.395,
+      "step": 2336
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 13.458152770996094,
+      "learning_rate": 2.659865184915285e-05,
+      "loss": 1.6081,
+      "step": 2920
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.636194109916687,
+      "eval_runtime": 2.7878,
+      "eval_samples_per_second": 837.925,
+      "eval_steps_per_second": 52.37,
+      "step": 2920
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 16.021841049194336,
+      "learning_rate": 2.1278921479322282e-05,
+      "loss": 1.5205,
+      "step": 3504
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.651986837387085,
+      "eval_runtime": 2.8674,
+      "eval_samples_per_second": 814.676,
+      "eval_steps_per_second": 50.917,
+      "step": 3504
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 13.808390617370605,
+      "learning_rate": 1.595919110949171e-05,
+      "loss": 1.485,
+      "step": 4088
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.5954667329788208,
+      "eval_runtime": 2.8033,
+      "eval_samples_per_second": 833.306,
+      "eval_steps_per_second": 52.082,
+      "step": 4088
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 14.75586986541748,
+      "learning_rate": 1.0639460739661141e-05,
+      "loss": 1.417,
+      "step": 4672
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.5574663877487183,
+      "eval_runtime": 2.7808,
+      "eval_samples_per_second": 840.059,
+      "eval_steps_per_second": 52.504,
+      "step": 4672
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 9.702314376831055,
+      "learning_rate": 5.3197303698305705e-06,
+      "loss": 1.3977,
+      "step": 5256
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.63029944896698,
+      "eval_runtime": 2.8761,
+      "eval_samples_per_second": 812.215,
+      "eval_steps_per_second": 50.763,
+      "step": 5256
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 15.371813774108887,
+      "learning_rate": 0.0,
+      "loss": 1.3698,
+      "step": 5840
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.5274702310562134,
+      "eval_runtime": 2.8826,
+      "eval_samples_per_second": 810.386,
+      "eval_steps_per_second": 50.649,
+      "step": 5840
+    },
+    {
+      "epoch": 10.0,
+      "step": 5840,
+      "total_flos": 1463189669724672.0,
+      "train_loss": 1.6345905356211206,
+      "train_runtime": 393.0437,
+      "train_samples_per_second": 237.684,
+      "train_steps_per_second": 14.858
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5840,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1463189669724672.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}