Model save

Browse files

Files changed (8) hide show

README.md +10 -10
logs/events.out.tfevents.1759916285.985e2228a723.486.0 +2 -2
model.safetensors +1 -1
training_artifacts/training_history.csv +11 -11
training_artifacts/training_history.json +61 -61
training_artifacts/training_loss.png +2 -2
training_artifacts/training_metrics.png +2 -2
training_artifacts/training_summary.json +3 -3

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [DedalusHealthCare/tinybert-mlm-en](https://huggingface.co/DedalusHealthCare/tinybert-mlm-en) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5198
 - Accuracy: 0.9816
 - F1: 0.0
 - Precision: 0.0
@@ -60,15 +60,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy | F1     | Precision | Recall |
 |:-------------:|:------:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|
-| 0.6922        | 0.2857 | 1    | 0.6659          | 0.8373   | 0.0606 | 0.0339    | 0.2857 |
-| 0.6922        | 0.5714 | 2    | 0.6609          | 0.8688   | 0.0385 | 0.0222    | 0.1429 |
-| 0.6922        | 0.8571 | 3    | 0.6511          | 0.9186   | 0.0606 | 0.0385    | 0.1429 |
-| 0.6922        | 1.1429 | 4    | 0.6367          | 0.9711   | 0.0    | 0.0       | 0.0    |
-| 0.6922        | 1.4286 | 5    | 0.6178          | 0.9816   | 0.0    | 0.0       | 0.0    |
-| 0.6922        | 1.7143 | 6    | 0.5948          | 0.9816   | 0.0    | 0.0       | 0.0    |
-| 0.6922        | 2.0    | 7    | 0.5687          | 0.9816   | 0.0    | 0.0       | 0.0    |
-| 0.6922        | 2.2857 | 8    | 0.5438          | 0.9816   | 0.0    | 0.0       | 0.0    |
-| 0.6922        | 2.5714 | 9    | 0.5198          | 0.9816   | 0.0    | 0.0       | 0.0    |
 ### Framework versions

 This model is a fine-tuned version of [DedalusHealthCare/tinybert-mlm-en](https://huggingface.co/DedalusHealthCare/tinybert-mlm-en) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5703
 - Accuracy: 0.9816
 - F1: 0.0
 - Precision: 0.0
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy | F1     | Precision | Recall |
 |:-------------:|:------:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|
+| 0.703         | 0.2857 | 1    | 0.7166          | 0.2310   | 0.0456 | 0.0233    | 1.0    |
+| 0.703         | 0.5714 | 2    | 0.7117          | 0.2677   | 0.0412 | 0.0211    | 0.8571 |
+| 0.703         | 0.8571 | 3    | 0.7020          | 0.3701   | 0.04   | 0.0206    | 0.7143 |
+| 0.703         | 1.1429 | 4    | 0.6875          | 0.5774   | 0.0359 | 0.0187    | 0.4286 |
+| 0.703         | 1.4286 | 5    | 0.6686          | 0.7874   | 0.0    | 0.0       | 0.0    |
+| 0.703         | 1.7143 | 6    | 0.6458          | 0.9423   | 0.0    | 0.0       | 0.0    |
+| 0.703         | 2.0    | 7    | 0.6198          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.703         | 2.2857 | 8    | 0.5946          | 0.9816   | 0.0    | 0.0       | 0.0    |
+| 0.703         | 2.5714 | 9    | 0.5703          | 0.9816   | 0.0    | 0.0       | 0.0    |
 ### Framework versions

logs/events.out.tfevents.1759916285.985e2228a723.486.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36e225078d402539687273dfcfb3d3166ec022974fd66a6f2af42a3daa544467
-size 9012

 version https://git-lfs.github.com/spec/v1
+oid sha256:e47ffa3035abc01014648a7b150fbeea0490e09ca731382e1b4bc56fdb322907
+size 9823

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebb88c4622f7135d86583be2dce8f9303c6028a09c9e09a9fea63f003a2987fc
 size 46634832

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4af840a5dede626a19094afe70430a4aa95c044521a9ae8c9c2b0b68d1282e0
 size 46634832

training_artifacts/training_history.csv CHANGED Viewed

@@ -1,12 +1,12 @@
 loss;grad_norm;learning_rate;epoch;step;eval_loss;eval_accuracy;eval_f1;eval_precision;eval_recall;eval_runtime;eval_samples_per_second;eval_steps_per_second;train_runtime;train_samples_per_second;train_steps_per_second;total_flos;train_loss
-0.6922;2.2436933517456055;3.3333333333333333e-06;0.2857142857142857;1;;;;;;;;;;;;;
-;;;0.2857142857142857;1;0.6658656597137451;0.8372703412073491;0.060606060606060594;0.03389830508474576;0.2857142857142857;0.7232;526.847;33.187;;;;;
-;;;0.5714285714285714;2;0.6608893275260925;0.868766404199475;0.038461538461538464;0.022222222222222223;0.14285714285714285;1.1627;327.685;20.642;;;;;
-;;;0.8571428571428571;3;0.6511300802230835;0.9186351706036745;0.060606060606060615;0.038461538461538464;0.14285714285714285;0.708;538.127;33.898;;;;;
-;;;1.1428571428571428;4;0.6366764307022095;0.9711286089238845;0.0;0.0;0.0;0.6896;552.485;34.802;;;;;
-;;;1.4285714285714286;5;0.6178359985351562;0.9816272965879265;0.0;0.0;0.0;2.3625;161.269;10.159;;;;;
-;;;1.7142857142857144;6;0.5948342084884644;0.9816272965879265;0.0;0.0;0.0;0.6961;547.358;34.479;;;;;
-;;;2.0;7;0.56866055727005;0.9816272965879265;0.0;0.0;0.0;0.7148;533.007;33.575;;;;;
-;;;2.2857142857142856;8;0.5438190698623657;0.9816272965879265;0.0;0.0;0.0;2.841;134.109;8.448;;;;;
-;;;2.571428571428571;9;0.5197792649269104;0.9816272965879265;0.0;0.0;0.0;0.6932;549.626;34.622;;;;;
-;;;2.571428571428571;9;;;;;;;;;17.9546;236.152;3.342;1986114624480.0;0.665169874827067

 loss;grad_norm;learning_rate;epoch;step;eval_loss;eval_accuracy;eval_f1;eval_precision;eval_recall;eval_runtime;eval_samples_per_second;eval_steps_per_second;train_runtime;train_samples_per_second;train_steps_per_second;total_flos;train_loss
+0.703;2.2138702869415283;3.3333333333333333e-06;0.2857142857142857;1;;;;;;;;;;;;;
+;;;0.2857142857142857;1;0.7165892720222473;0.23097112860892388;0.04560260586319218;0.023333333333333334;1.0;0.7454;511.131;32.197;;;;;
+;;;0.5714285714285714;2;0.7117474675178528;0.2677165354330709;0.041237113402061855;0.02112676056338028;0.8571428571428571;1.5578;244.576;15.406;;;;;
+;;;0.8571428571428571;3;0.7019844055175781;0.3700787401574803;0.04;0.0205761316872428;0.7142857142857143;2.8847;132.075;8.32;;;;;
+;;;1.1428571428571428;4;0.6875269412994385;0.5774278215223098;0.03592814371257485;0.01875;0.42857142857142855;2.1358;178.386;11.237;;;;;
+;;;1.4285714285714286;5;0.6685800552368164;0.7874015748031497;0.0;0.0;0.0;0.7158;532.274;33.529;;;;;
+;;;1.7142857142857144;6;0.6458192467689514;0.9422572178477691;0.0;0.0;0.0;1.2139;313.874;19.772;;;;;
+;;;2.0;7;0.6197686195373535;0.9816272965879265;0.0;0.0;0.0;0.7728;493.017;31.056;;;;;
+;;;2.2857142857142856;8;0.5946394205093384;0.9816272965879265;0.0;0.0;0.0;0.7291;522.579;32.918;;;;;
+;;;2.571428571428571;9;0.5703445672988892;0.9816272965879265;0.0;0.0;0.0;0.9339;407.972;25.699;;;;;
+;;;2.571428571428571;9;;;;;;;;;22.1708;191.242;2.706;2172566201472.0;0.6836379369099935

training_artifacts/training_history.json CHANGED Viewed

@@ -1,125 +1,125 @@
 [
   {
-    "loss": 0.6922,
-    "grad_norm": 2.2436933517456055,
     "learning_rate": 3.3333333333333333e-06,
     "epoch": 0.2857142857142857,
     "step": 1
   },
   {
-    "eval_loss": 0.6658656597137451,
-    "eval_accuracy": 0.8372703412073491,
-    "eval_f1": 0.060606060606060594,
-    "eval_precision": 0.03389830508474576,
-    "eval_recall": 0.2857142857142857,
-    "eval_runtime": 0.7232,
-    "eval_samples_per_second": 526.847,
-    "eval_steps_per_second": 33.187,
     "epoch": 0.2857142857142857,
     "step": 1
   },
   {
-    "eval_loss": 0.6608893275260925,
-    "eval_accuracy": 0.868766404199475,
-    "eval_f1": 0.038461538461538464,
-    "eval_precision": 0.022222222222222223,
-    "eval_recall": 0.14285714285714285,
-    "eval_runtime": 1.1627,
-    "eval_samples_per_second": 327.685,
-    "eval_steps_per_second": 20.642,
     "epoch": 0.5714285714285714,
     "step": 2
   },
   {
-    "eval_loss": 0.6511300802230835,
-    "eval_accuracy": 0.9186351706036745,
-    "eval_f1": 0.060606060606060615,
-    "eval_precision": 0.038461538461538464,
-    "eval_recall": 0.14285714285714285,
-    "eval_runtime": 0.708,
-    "eval_samples_per_second": 538.127,
-    "eval_steps_per_second": 33.898,
     "epoch": 0.8571428571428571,
     "step": 3
   },
   {
-    "eval_loss": 0.6366764307022095,
-    "eval_accuracy": 0.9711286089238845,
-    "eval_f1": 0.0,
-    "eval_precision": 0.0,
-    "eval_recall": 0.0,
-    "eval_runtime": 0.6896,
-    "eval_samples_per_second": 552.485,
-    "eval_steps_per_second": 34.802,
     "epoch": 1.1428571428571428,
     "step": 4
   },
   {
-    "eval_loss": 0.6178359985351562,
-    "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
-    "eval_runtime": 2.3625,
-    "eval_samples_per_second": 161.269,
-    "eval_steps_per_second": 10.159,
     "epoch": 1.4285714285714286,
     "step": 5
   },
   {
-    "eval_loss": 0.5948342084884644,
-    "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
-    "eval_runtime": 0.6961,
-    "eval_samples_per_second": 547.358,
-    "eval_steps_per_second": 34.479,
     "epoch": 1.7142857142857144,
     "step": 6
   },
   {
-    "eval_loss": 0.56866055727005,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
-    "eval_runtime": 0.7148,
-    "eval_samples_per_second": 533.007,
-    "eval_steps_per_second": 33.575,
     "epoch": 2.0,
     "step": 7
   },
   {
-    "eval_loss": 0.5438190698623657,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
-    "eval_runtime": 2.841,
-    "eval_samples_per_second": 134.109,
-    "eval_steps_per_second": 8.448,
     "epoch": 2.2857142857142856,
     "step": 8
   },
   {
-    "eval_loss": 0.5197792649269104,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
-    "eval_runtime": 0.6932,
-    "eval_samples_per_second": 549.626,
-    "eval_steps_per_second": 34.622,
     "epoch": 2.571428571428571,
     "step": 9
   },
   {
-    "train_runtime": 17.9546,
-    "train_samples_per_second": 236.152,
-    "train_steps_per_second": 3.342,
-    "total_flos": 1986114624480.0,
-    "train_loss": 0.665169874827067,
     "epoch": 2.571428571428571,
     "step": 9
   }

 [
   {
+    "loss": 0.703,
+    "grad_norm": 2.2138702869415283,
     "learning_rate": 3.3333333333333333e-06,
     "epoch": 0.2857142857142857,
     "step": 1
   },
   {
+    "eval_loss": 0.7165892720222473,
+    "eval_accuracy": 0.23097112860892388,
+    "eval_f1": 0.04560260586319218,
+    "eval_precision": 0.023333333333333334,
+    "eval_recall": 1.0,
+    "eval_runtime": 0.7454,
+    "eval_samples_per_second": 511.131,
+    "eval_steps_per_second": 32.197,
     "epoch": 0.2857142857142857,
     "step": 1
   },
   {
+    "eval_loss": 0.7117474675178528,
+    "eval_accuracy": 0.2677165354330709,
+    "eval_f1": 0.041237113402061855,
+    "eval_precision": 0.02112676056338028,
+    "eval_recall": 0.8571428571428571,
+    "eval_runtime": 1.5578,
+    "eval_samples_per_second": 244.576,
+    "eval_steps_per_second": 15.406,
     "epoch": 0.5714285714285714,
     "step": 2
   },
   {
+    "eval_loss": 0.7019844055175781,
+    "eval_accuracy": 0.3700787401574803,
+    "eval_f1": 0.04,
+    "eval_precision": 0.0205761316872428,
+    "eval_recall": 0.7142857142857143,
+    "eval_runtime": 2.8847,
+    "eval_samples_per_second": 132.075,
+    "eval_steps_per_second": 8.32,
     "epoch": 0.8571428571428571,
     "step": 3
   },
   {
+    "eval_loss": 0.6875269412994385,
+    "eval_accuracy": 0.5774278215223098,
+    "eval_f1": 0.03592814371257485,
+    "eval_precision": 0.01875,
+    "eval_recall": 0.42857142857142855,
+    "eval_runtime": 2.1358,
+    "eval_samples_per_second": 178.386,
+    "eval_steps_per_second": 11.237,
     "epoch": 1.1428571428571428,
     "step": 4
   },
   {
+    "eval_loss": 0.6685800552368164,
+    "eval_accuracy": 0.7874015748031497,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
+    "eval_runtime": 0.7158,
+    "eval_samples_per_second": 532.274,
+    "eval_steps_per_second": 33.529,
     "epoch": 1.4285714285714286,
     "step": 5
   },
   {
+    "eval_loss": 0.6458192467689514,
+    "eval_accuracy": 0.9422572178477691,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
+    "eval_runtime": 1.2139,
+    "eval_samples_per_second": 313.874,
+    "eval_steps_per_second": 19.772,
     "epoch": 1.7142857142857144,
     "step": 6
   },
   {
+    "eval_loss": 0.6197686195373535,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
+    "eval_runtime": 0.7728,
+    "eval_samples_per_second": 493.017,
+    "eval_steps_per_second": 31.056,
     "epoch": 2.0,
     "step": 7
   },
   {
+    "eval_loss": 0.5946394205093384,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
+    "eval_runtime": 0.7291,
+    "eval_samples_per_second": 522.579,
+    "eval_steps_per_second": 32.918,
     "epoch": 2.2857142857142856,
     "step": 8
   },
   {
+    "eval_loss": 0.5703445672988892,
     "eval_accuracy": 0.9816272965879265,
     "eval_f1": 0.0,
     "eval_precision": 0.0,
     "eval_recall": 0.0,
+    "eval_runtime": 0.9339,
+    "eval_samples_per_second": 407.972,
+    "eval_steps_per_second": 25.699,
     "epoch": 2.571428571428571,
     "step": 9
   },
   {
+    "train_runtime": 22.1708,
+    "train_samples_per_second": 191.242,
+    "train_steps_per_second": 2.706,
+    "total_flos": 2172566201472.0,
+    "train_loss": 0.6836379369099935,
     "epoch": 2.571428571428571,
     "step": 9
   }

training_artifacts/training_loss.png CHANGED Viewed

Git LFS Details

SHA256: c82b658885e1b433ac35f6a1b6d40139e7fec254890a4dbb388b6f488817c499
Pointer size: 131 Bytes
Size of remote file: 182 kB

Git LFS Details

SHA256: d9dd3d1b27f37437e53fef5ad7f231f8cabfd2885c48083da27f13ba02bf3572
Pointer size: 131 Bytes
Size of remote file: 182 kB

training_artifacts/training_metrics.png CHANGED Viewed

Git LFS Details

SHA256: 89a6b5bac39ddebf0c1f93d68e7484550ba9c9ea459227e71f6710d7ce808b13
Pointer size: 131 Bytes
Size of remote file: 189 kB

Git LFS Details

SHA256: fe165a04f9de27f51cb9fc8eeae61fea79a1abaa594b0d38f5aec389f97090b0
Pointer size: 131 Bytes
Size of remote file: 154 kB

training_artifacts/training_summary.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "total_epochs": 2.571428571428571,
   "total_steps": "9",
-  "final_train_loss": 0.6922,
-  "final_eval_loss": 0.5197792649269104,
-  "best_eval_loss": 0.5197792649269104
 }

 {
   "total_epochs": 2.571428571428571,
   "total_steps": "9",
+  "final_train_loss": 0.703,
+  "final_eval_loss": 0.5703445672988892,
+  "best_eval_loss": 0.5703445672988892
 }