Model save

Browse files

Files changed (9) hide show

.gitattributes +2 -0
README.md +79 -0
logs/events.out.tfevents.1758794250.e4c37a3f7732.1802.0 +2 -2
model.safetensors +1 -1
training_artifacts/training_history.csv +12 -0
training_artifacts/training_history.json +126 -0
training_artifacts/training_loss.png +3 -0
training_artifacts/training_metrics.png +3 -0
training_artifacts/training_summary.json +7 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+training_artifacts/training_loss.png filter=lfs diff=lfs merge=lfs -text
+training_artifacts/training_metrics.png filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+library_name: transformers
+license: other
+base_model: DedalusHealthCare/tinybert-mlm-en
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+- f1
+- precision
+- recall
+model-index:
+- name: tinybert
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# tinybert
+This model is a fine-tuned version of [DedalusHealthCare/tinybert-mlm-en](https://huggingface.co/DedalusHealthCare/tinybert-mlm-en) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5198
+- Accuracy: 0.9816
+- F1: 0.0
+- Precision: 0.0
+- Recall: 0.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 32
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 20
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy | F1     | Precision | Recall |
+|:-------------:|:------:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|
+| 0.6922        | 0.2857 | 1    | 0.6659          | 0.8373   | 0.0606 | 0.0339    | 0.2857 |
+| 0.6922        | 0.5714 | 2    | 0.6609          | 0.8688   | 0.0385 | 0.0222    | 0.1429 |
+| 0.6922        | 0.8571 | 3    | 0.6511          | 0.9186   | 0.0606 | 0.0385    | 0.1429 |
+| 0.6922        | 1.1429 | 4    | 0.6367          | 0.9711   | 0.0    | 0.0       | 0.0    |
+| 0.6922        | 1.4286 | 5    | 0.6178          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.6922        | 1.7143 | 6    | 0.5948          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.6922        | 2.0    | 7    | 0.5687          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.6922        | 2.2857 | 8    | 0.5438          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.6922        | 2.5714 | 9    | 0.5198          | 0.9816   | 0.0    | 0.0       | 0.0    |
+### Framework versions
+- Transformers 4.45.1
+- Pytorch 2.6.0+cu124
+- Datasets 2.16.0
+- Tokenizers 0.20.3

logs/events.out.tfevents.1758794250.e4c37a3f7732.1802.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cd69ff6ddd9695c410d56dc9f5e9faa9081dcaee18b699373636d7ebf3694bc
-size 8549

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b5b9ad2c188e4b9c413d9287969a79c0edabf8b906d5581ee9a7727e53938d5
+size 9823

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fc362ab46c9c63e0360628c1d992b5b577fefbfefd6979aa4c1e2d37ae43416
 size 46634832

 version https://git-lfs.github.com/spec/v1
+oid sha256:420641270a1fa45d21ec8f1270943cc49aea3eab32437400c8aba4c1ee422c02
 size 46634832

training_artifacts/training_history.csv ADDED Viewed

	@@ -0,0 +1,12 @@

+loss;grad_norm;learning_rate;epoch;step;eval_loss;eval_accuracy;eval_f1;eval_precision;eval_recall;eval_runtime;eval_samples_per_second;eval_steps_per_second;train_runtime;train_samples_per_second;train_steps_per_second;total_flos;train_loss
+0.6922;2.2436933517456055;3.3333333333333333e-06;0.2857142857142857;1;;;;;;;;;;;;;
+;;;0.2857142857142857;1;0.6658656597137451;0.8372703412073491;0.060606060606060594;0.03389830508474576;0.2857142857142857;0.7232;526.847;33.187;;;;;
+;;;0.5714285714285714;2;0.6608893275260925;0.868766404199475;0.038461538461538464;0.022222222222222223;0.14285714285714285;1.1627;327.685;20.642;;;;;
+;;;0.8571428571428571;3;0.6511300802230835;0.9186351706036745;0.060606060606060615;0.038461538461538464;0.14285714285714285;0.708;538.127;33.898;;;;;
+;;;1.1428571428571428;4;0.6366764307022095;0.9711286089238845;0.0;0.0;0.0;0.6896;552.485;34.802;;;;;
+;;;1.4285714285714286;5;0.6178359985351562;0.9816272965879265;0.0;0.0;0.0;2.3625;161.269;10.159;;;;;
+;;;1.7142857142857144;6;0.5948342084884644;0.9816272965879265;0.0;0.0;0.0;0.6961;547.358;34.479;;;;;
+;;;2.0;7;0.56866055727005;0.9816272965879265;0.0;0.0;0.0;0.7148;533.007;33.575;;;;;
+;;;2.2857142857142856;8;0.5438190698623657;0.9816272965879265;0.0;0.0;0.0;2.841;134.109;8.448;;;;;
+;;;2.571428571428571;9;0.5197792649269104;0.9816272965879265;0.0;0.0;0.0;0.6932;549.626;34.622;;;;;
+;;;2.571428571428571;9;;;;;;;;;17.9546;236.152;3.342;1986114624480.0;0.665169874827067

training_artifacts/training_history.json ADDED Viewed

	@@ -0,0 +1,126 @@

+[
+  {
+    "loss": 0.6922,
+    "grad_norm": 2.2436933517456055,
+    "learning_rate": 3.3333333333333333e-06,
+    "epoch": 0.2857142857142857,
+    "step": 1
+  },
+  {
+    "eval_loss": 0.6658656597137451,
+    "eval_accuracy": 0.8372703412073491,
+    "eval_f1": 0.060606060606060594,
+    "eval_precision": 0.03389830508474576,
+    "eval_recall": 0.2857142857142857,
+    "eval_runtime": 0.7232,
+    "eval_samples_per_second": 526.847,
+    "eval_steps_per_second": 33.187,
+    "epoch": 0.2857142857142857,
+    "step": 1
+  },
+  {
+    "eval_loss": 0.6608893275260925,
+    "eval_accuracy": 0.868766404199475,
+    "eval_f1": 0.038461538461538464,
+    "eval_precision": 0.022222222222222223,
+    "eval_recall": 0.14285714285714285,
+    "eval_runtime": 1.1627,
+    "eval_samples_per_second": 327.685,
+    "eval_steps_per_second": 20.642,
+    "epoch": 0.5714285714285714,
+    "step": 2
+  },
+  {
+    "eval_loss": 0.6511300802230835,
+    "eval_accuracy": 0.9186351706036745,
+    "eval_f1": 0.060606060606060615,
+    "eval_precision": 0.038461538461538464,
+    "eval_recall": 0.14285714285714285,
+    "eval_runtime": 0.708,
+    "eval_samples_per_second": 538.127,
+    "eval_steps_per_second": 33.898,
+    "epoch": 0.8571428571428571,
+    "step": 3
+  },
+  {
+    "eval_loss": 0.6366764307022095,
+    "eval_accuracy": 0.9711286089238845,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 0.6896,
+    "eval_samples_per_second": 552.485,
+    "eval_steps_per_second": 34.802,
+    "epoch": 1.1428571428571428,
+    "step": 4
+  },
+  {
+    "eval_loss": 0.6178359985351562,
+    "eval_accuracy": 0.9816272965879265,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 2.3625,
+    "eval_samples_per_second": 161.269,
+    "eval_steps_per_second": 10.159,
+    "epoch": 1.4285714285714286,
+    "step": 5
+  },
+  {
+    "eval_loss": 0.5948342084884644,
+    "eval_accuracy": 0.9816272965879265,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 0.6961,
+    "eval_samples_per_second": 547.358,
+    "eval_steps_per_second": 34.479,
+    "epoch": 1.7142857142857144,
+    "step": 6
+  },
+  {
+    "eval_loss": 0.56866055727005,
+    "eval_accuracy": 0.9816272965879265,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 0.7148,
+    "eval_samples_per_second": 533.007,
+    "eval_steps_per_second": 33.575,
+    "epoch": 2.0,
+    "step": 7
+  },
+  {
+    "eval_loss": 0.5438190698623657,
+    "eval_accuracy": 0.9816272965879265,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 2.841,
+    "eval_samples_per_second": 134.109,
+    "eval_steps_per_second": 8.448,
+    "epoch": 2.2857142857142856,
+    "step": 8
+  },
+  {
+    "eval_loss": 0.5197792649269104,
+    "eval_accuracy": 0.9816272965879265,
+    "eval_f1": 0.0,
+    "eval_precision": 0.0,
+    "eval_recall": 0.0,
+    "eval_runtime": 0.6932,
+    "eval_samples_per_second": 549.626,
+    "eval_steps_per_second": 34.622,
+    "epoch": 2.571428571428571,
+    "step": 9
+  },
+  {
+    "train_runtime": 17.9546,
+    "train_samples_per_second": 236.152,
+    "train_steps_per_second": 3.342,
+    "total_flos": 1986114624480.0,
+    "train_loss": 0.665169874827067,
+    "epoch": 2.571428571428571,
+    "step": 9
+  }
+]

training_artifacts/training_loss.png ADDED Viewed

Git LFS Details

SHA256: c82b658885e1b433ac35f6a1b6d40139e7fec254890a4dbb388b6f488817c499
Pointer size: 131 Bytes
Size of remote file: 182 kB

training_artifacts/training_metrics.png ADDED Viewed

Git LFS Details

SHA256: 89a6b5bac39ddebf0c1f93d68e7484550ba9c9ea459227e71f6710d7ce808b13
Pointer size: 131 Bytes
Size of remote file: 189 kB

training_artifacts/training_summary.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "total_epochs": 2.571428571428571,
+  "total_steps": "9",
+  "final_train_loss": 0.6922,
+  "final_eval_loss": 0.5197792649269104,
+  "best_eval_loss": 0.5197792649269104
+}