End of training

Browse files

Files changed (6) hide show

README.md +19 -4
all_results.json +11 -11
eval_results.json +6 -6
logs/events.out.tfevents.1744965771.s_005_m.2772371.5 +3 -0
train_results.json +6 -6
trainer_state.json +78 -62

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: Hartunka/bert_base_km_5_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert_base_km_5_v1_qnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_base_km_5_v1_qnli
-This model is a fine-tuned version of [Hartunka/bert_base_km_5_v1](https://huggingface.co/Hartunka/bert_base_km_5_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0977
-- Accuracy: 0.7205
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: Hartunka/bert_base_km_5_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: bert_base_km_5_v1_qnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QNLI
+      type: glue
+      args: qnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7230459454512173
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_base_km_5_v1_qnli
+This model is a fine-tuned version of [Hartunka/bert_base_km_5_v1](https://huggingface.co/Hartunka/bert_base_km_5_v1) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5546
+- Accuracy: 0.7230
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 7.0,
-    "eval_accuracy": 0.6355482335712979,
-    "eval_loss": 0.6360806822776794,
-    "eval_runtime": 3.4105,
     "eval_samples": 5463,
-    "eval_samples_per_second": 1601.841,
-    "eval_steps_per_second": 6.451,
-    "total_flos": 9.645664445050368e+16,
-    "train_loss": 0.4762156921812051,
-    "train_runtime": 1213.2441,
     "train_samples": 104743,
-    "train_samples_per_second": 4316.65,
-    "train_steps_per_second": 16.897
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.7230459454512173,
+    "eval_loss": 0.5545818209648132,
+    "eval_runtime": 3.4801,
     "eval_samples": 5463,
+    "eval_samples_per_second": 1569.798,
+    "eval_steps_per_second": 6.322,
+    "total_flos": 1.1023616508628992e+17,
+    "train_loss": 0.3288262250946789,
+    "train_runtime": 1406.5934,
     "train_samples": 104743,
+    "train_samples_per_second": 3723.286,
+    "train_steps_per_second": 14.574
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.0,
-    "eval_accuracy": 0.6355482335712979,
-    "eval_loss": 0.6360806822776794,
-    "eval_runtime": 3.4105,
     "eval_samples": 5463,
-    "eval_samples_per_second": 1601.841,
-    "eval_steps_per_second": 6.451
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.7230459454512173,
+    "eval_loss": 0.5545818209648132,
+    "eval_runtime": 3.4801,
     "eval_samples": 5463,
+    "eval_samples_per_second": 1569.798,
+    "eval_steps_per_second": 6.322
 }

logs/events.out.tfevents.1744965771.s_005_m.2772371.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e8649c32aa70f691649e18cd338ed1c4ab2f93d0b772d8e5b63ea4e38fca0a
+size 363

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.0,
-    "total_flos": 9.645664445050368e+16,
-    "train_loss": 0.4762156921812051,
-    "train_runtime": 1213.2441,
     "train_samples": 104743,
-    "train_samples_per_second": 4316.65,
-    "train_steps_per_second": 16.897
 }

 {
+    "epoch": 8.0,
+    "total_flos": 1.1023616508628992e+17,
+    "train_loss": 0.3288262250946789,
+    "train_runtime": 1406.5934,
     "train_samples": 104743,
+    "train_samples_per_second": 3723.286,
+    "train_steps_per_second": 14.574
 }

trainer_state.json CHANGED Viewed

@@ -1,134 +1,150 @@
 {
-  "best_global_step": 820,
-  "best_metric": 0.6360806822776794,
-  "best_model_checkpoint": "bert_base_km_5_v1_qnli/checkpoint-820",
-  "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 2870,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.828690767288208,
       "learning_rate": 4.9e-05,
-      "loss": 0.6649,
       "step": 410
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.628226249313564,
-      "eval_loss": 0.6430281400680542,
-      "eval_runtime": 3.466,
-      "eval_samples_per_second": 1576.185,
-      "eval_steps_per_second": 6.347,
       "step": 410
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.3895260095596313,
       "learning_rate": 4.8e-05,
-      "loss": 0.6306,
       "step": 820
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6355482335712979,
-      "eval_loss": 0.6360806822776794,
-      "eval_runtime": 3.4177,
-      "eval_samples_per_second": 1598.464,
-      "eval_steps_per_second": 6.437,
       "step": 820
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.440150737762451,
       "learning_rate": 4.7e-05,
-      "loss": 0.5825,
       "step": 1230
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6346329855390811,
-      "eval_loss": 0.6825335025787354,
-      "eval_runtime": 3.4179,
-      "eval_samples_per_second": 1598.346,
-      "eval_steps_per_second": 6.437,
       "step": 1230
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.394643545150757,
       "learning_rate": 4.600000000000001e-05,
-      "loss": 0.5099,
       "step": 1640
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6339007871133077,
-      "eval_loss": 0.6797336935997009,
-      "eval_runtime": 3.4223,
-      "eval_samples_per_second": 1596.287,
-      "eval_steps_per_second": 6.428,
       "step": 1640
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.846761703491211,
       "learning_rate": 4.5e-05,
-      "loss": 0.413,
       "step": 2050
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.6326194398682042,
-      "eval_loss": 0.7664294242858887,
-      "eval_runtime": 3.4103,
-      "eval_samples_per_second": 1601.897,
-      "eval_steps_per_second": 6.451,
       "step": 2050
     },
     {
       "epoch": 6.0,
-      "grad_norm": 5.692334175109863,
       "learning_rate": 4.4000000000000006e-05,
-      "loss": 0.3084,
       "step": 2460
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6306058941973275,
-      "eval_loss": 0.9365506172180176,
-      "eval_runtime": 3.4155,
-      "eval_samples_per_second": 1599.487,
-      "eval_steps_per_second": 6.441,
       "step": 2460
     },
     {
       "epoch": 7.0,
-      "grad_norm": 9.478910446166992,
       "learning_rate": 4.3e-05,
-      "loss": 0.2241,
       "step": 2870
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.6220025626944902,
-      "eval_loss": 1.1781185865402222,
-      "eval_runtime": 3.4223,
-      "eval_samples_per_second": 1596.288,
-      "eval_steps_per_second": 6.428,
       "step": 2870
     },
     {
-      "epoch": 7.0,
-      "step": 2870,
-      "total_flos": 9.645664445050368e+16,
-      "train_loss": 0.4762156921812051,
-      "train_runtime": 1213.2441,
-      "train_samples_per_second": 4316.65,
-      "train_steps_per_second": 16.897
     }
   ],
   "logging_steps": 1,
@@ -157,7 +173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.645664445050368e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1230,
+  "best_metric": 0.5545818209648132,
+  "best_model_checkpoint": "bert_base_km_5_v1_qnli/checkpoint-1230",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 3280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 3.1364433765411377,
       "learning_rate": 4.9e-05,
+      "loss": 0.6587,
       "step": 410
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.653120995789859,
+      "eval_loss": 0.6231846809387207,
+      "eval_runtime": 3.4944,
+      "eval_samples_per_second": 1563.373,
+      "eval_steps_per_second": 6.296,
       "step": 410
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.362776279449463,
       "learning_rate": 4.8e-05,
+      "loss": 0.5937,
       "step": 820
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7095002745744097,
+      "eval_loss": 0.5632237792015076,
+      "eval_runtime": 3.4737,
+      "eval_samples_per_second": 1572.683,
+      "eval_steps_per_second": 6.333,
       "step": 820
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.1579790115356445,
       "learning_rate": 4.7e-05,
+      "loss": 0.4625,
       "step": 1230
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7230459454512173,
+      "eval_loss": 0.5545818209648132,
+      "eval_runtime": 3.4852,
+      "eval_samples_per_second": 1567.485,
+      "eval_steps_per_second": 6.312,
       "step": 1230
     },
     {
       "epoch": 4.0,
+      "grad_norm": 5.969952583312988,
       "learning_rate": 4.600000000000001e-05,
+      "loss": 0.3374,
       "step": 1640
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7349441698700347,
+      "eval_loss": 0.6059415936470032,
+      "eval_runtime": 3.4663,
+      "eval_samples_per_second": 1576.053,
+      "eval_steps_per_second": 6.347,
       "step": 1640
     },
     {
       "epoch": 5.0,
+      "grad_norm": 5.252902507781982,
       "learning_rate": 4.5e-05,
+      "loss": 0.2281,
       "step": 2050
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7358594179022515,
+      "eval_loss": 0.6952667832374573,
+      "eval_runtime": 3.4644,
+      "eval_samples_per_second": 1576.908,
+      "eval_steps_per_second": 6.35,
       "step": 2050
     },
     {
       "epoch": 6.0,
+      "grad_norm": 9.05676555633545,
       "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.1522,
       "step": 2460
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7316492769540546,
+      "eval_loss": 0.8388772010803223,
+      "eval_runtime": 3.4941,
+      "eval_samples_per_second": 1563.513,
+      "eval_steps_per_second": 6.296,
       "step": 2460
     },
     {
       "epoch": 7.0,
+      "grad_norm": 11.310493469238281,
       "learning_rate": 4.3e-05,
+      "loss": 0.113,
       "step": 2870
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7254255903349808,
+      "eval_loss": 0.987945556640625,
+      "eval_runtime": 3.4671,
+      "eval_samples_per_second": 1575.652,
+      "eval_steps_per_second": 6.345,
       "step": 2870
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 6.990315914154053,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0849,
+      "step": 3280
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7204832509610104,
+      "eval_loss": 1.0977376699447632,
+      "eval_runtime": 3.4638,
+      "eval_samples_per_second": 1577.179,
+      "eval_steps_per_second": 6.351,
+      "step": 3280
+    },
+    {
+      "epoch": 8.0,
+      "step": 3280,
+      "total_flos": 1.1023616508628992e+17,
+      "train_loss": 0.3288262250946789,
+      "train_runtime": 1406.5934,
+      "train_samples_per_second": 3723.286,
+      "train_steps_per_second": 14.574
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1023616508628992e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null