Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

README.md +23 -16
all_results.json +10 -10
config.json +1 -1
eval_results.json +6 -6
train_results.json +5 -5
trainer_state.json +103 -61
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 license: apache-2.0
 base_model: bert-large-cased
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert-large-qnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-large-qnli
-This model is a fine-tuned version of [bert-large-cased](https://huggingface.co/bert-large-cased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6932
-- Accuracy: 0.4946
 ## Model description
@@ -37,24 +52,16 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 16
-- eval_batch_size: 32
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.706         | 1.0   | 818  | 0.7039          | 0.4946   |
-| 0.7032        | 2.0   | 1636 | 0.6934          | 0.4946   |
-| 0.7031        | 3.0   | 2455 | 0.6931          | 0.5054   |
-| 0.7021        | 4.0   | 3272 | 0.6932          | 0.4946   |
 ### Framework versions

 ---
+language:
+- en
 license: apache-2.0
 base_model: bert-large-cased
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: bert-large-qnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QNLI
+      type: glue
+      args: qnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9249496613582281
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert-large-qnli
+This model is a fine-tuned version of [bert-large-cased](https://huggingface.co/bert-large-cased) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3051
+- Accuracy: 0.9249
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 32
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 3.0
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.4946000366099213,
-    "eval_loss": 0.6931692361831665,
-    "eval_runtime": 30.42,
     "eval_samples": 5463,
-    "eval_samples_per_second": 179.586,
-    "eval_steps_per_second": 5.621,
-    "train_loss": 0.7034443619781718,
-    "train_runtime": 7284.2364,
     "train_samples": 104743,
-    "train_samples_per_second": 57.518,
-    "train_steps_per_second": 0.449
 }

 {
+    "epoch": 3.0,
+    "eval_accuracy": 0.9249496613582281,
+    "eval_loss": 0.30514439940452576,
+    "eval_runtime": 31.6611,
     "eval_samples": 5463,
+    "eval_samples_per_second": 172.546,
+    "eval_steps_per_second": 21.572,
+    "train_loss": 0.18336697417057063,
+    "train_runtime": 5113.4763,
     "train_samples": 104743,
+    "train_samples_per_second": 61.451,
+    "train_steps_per_second": 1.921
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "./checkpoints/bert-large-qnli",
   "architectures": [
     "BertForSequenceClassification"
   ],

 {
+  "_name_or_path": "bert-large-cased",
   "architectures": [
     "BertForSequenceClassification"
   ],

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.4946000366099213,
-    "eval_loss": 0.6931692361831665,
-    "eval_runtime": 30.42,
     "eval_samples": 5463,
-    "eval_samples_per_second": 179.586,
-    "eval_steps_per_second": 5.621
 }

 {
+    "epoch": 3.0,
+    "eval_accuracy": 0.9249496613582281,
+    "eval_loss": 0.30514439940452576,
+    "eval_runtime": 31.6611,
     "eval_samples": 5463,
+    "eval_samples_per_second": 172.546,
+    "eval_steps_per_second": 21.572
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.7034443619781718,
-    "train_runtime": 7284.2364,
     "train_samples": 104743,
-    "train_samples_per_second": 57.518,
-    "train_steps_per_second": 0.449
 }

 {
+    "epoch": 3.0,
+    "train_loss": 0.18336697417057063,
+    "train_runtime": 5113.4763,
     "train_samples": 104743,
+    "train_samples_per_second": 61.451,
+    "train_steps_per_second": 1.921
 }

trainer_state.json CHANGED Viewed

@@ -1,97 +1,139 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9981670994348555,
-  "global_step": 3272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.61,
-      "learning_rate": 4.246638141809291e-05,
-      "loss": 0.706,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.7039228677749634,
-      "eval_runtime": 30.7626,
-      "eval_samples_per_second": 177.586,
-      "eval_steps_per_second": 5.559,
-      "step": 818
     },
     {
       "epoch": 1.22,
-      "learning_rate": 3.4825794621026896e-05,
-      "loss": 0.7042,
-      "step": 1000
     },
     {
       "epoch": 1.83,
-      "learning_rate": 2.718520782396088e-05,
-      "loss": 0.7032,
-      "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.6934332847595215,
-      "eval_runtime": 30.7656,
-      "eval_samples_per_second": 177.569,
-      "eval_steps_per_second": 5.558,
-      "step": 1636
     },
     {
-      "epoch": 2.44,
-      "learning_rate": 1.9544621026894865e-05,
-      "loss": 0.7031,
-      "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6931120753288269,
-      "eval_runtime": 30.7565,
-      "eval_samples_per_second": 177.621,
-      "eval_steps_per_second": 5.56,
-      "step": 2455
     },
     {
-      "epoch": 3.05,
-      "learning_rate": 1.1904034229828852e-05,
-      "loss": 0.7027,
-      "step": 2500
     },
     {
-      "epoch": 3.67,
-      "learning_rate": 4.263447432762836e-06,
-      "loss": 0.7021,
-      "step": 3000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.6931692361831665,
-      "eval_runtime": 30.7781,
-      "eval_samples_per_second": 177.497,
-      "eval_steps_per_second": 5.556,
-      "step": 3272
     },
     {
-      "epoch": 4.0,
-      "step": 3272,
-      "total_flos": 3.902826037167698e+17,
-      "train_loss": 0.7034443619781718,
-      "train_runtime": 7284.2364,
-      "train_samples_per_second": 57.518,
-      "train_steps_per_second": 0.449
     }
   ],
-  "max_steps": 3272,
-  "num_train_epochs": 4,
-  "total_flos": 3.902826037167698e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 9822,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.15,
+      "learning_rate": 1.8981877418041133e-05,
+      "loss": 0.4196,
       "step": 500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 1.7963754836082265e-05,
+      "loss": 0.3233,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.69456322541234e-05,
+      "loss": 0.2968,
+      "step": 1500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.592750967216453e-05,
+      "loss": 0.2858,
+      "step": 2000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.4909387090205662e-05,
+      "loss": 0.2731,
+      "step": 2500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.3891264508246794e-05,
+      "loss": 0.257,
+      "step": 3000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.2873141926287927e-05,
+      "loss": 0.2154,
+      "step": 3500
     },
     {
       "epoch": 1.22,
+      "learning_rate": 1.1855019344329057e-05,
+      "loss": 0.1671,
+      "step": 4000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.083689676237019e-05,
+      "loss": 0.1613,
+      "step": 4500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 9.818774180411322e-06,
+      "loss": 0.1637,
+      "step": 5000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 8.800651598452455e-06,
+      "loss": 0.1611,
+      "step": 5500
     },
     {
       "epoch": 1.83,
+      "learning_rate": 7.782529016493586e-06,
+      "loss": 0.1605,
+      "step": 6000
     },
     {
+      "epoch": 1.99,
+      "learning_rate": 6.764406434534719e-06,
+      "loss": 0.1518,
+      "step": 6500
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 5.74628385257585e-06,
+      "loss": 0.0873,
+      "step": 7000
     },
     {
+      "epoch": 2.29,
+      "learning_rate": 4.728161270616982e-06,
+      "loss": 0.0907,
+      "step": 7500
     },
     {
+      "epoch": 2.44,
+      "learning_rate": 3.7100386886581147e-06,
+      "loss": 0.0762,
+      "step": 8000
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 2.6919161066992467e-06,
+      "loss": 0.0822,
+      "step": 8500
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.6737935247403788e-06,
+      "loss": 0.0887,
+      "step": 9000
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 6.55670942781511e-07,
+      "loss": 0.0868,
+      "step": 9500
     },
     {
+      "epoch": 3.0,
+      "step": 9822,
+      "total_flos": 7.320996509179853e+16,
+      "train_loss": 0.18336697417057063,
+      "train_runtime": 5113.4763,
+      "train_samples_per_second": 61.451,
+      "train_steps_per_second": 1.921
     }
   ],
+  "max_steps": 9822,
+  "num_train_epochs": 3,
+  "total_flos": 7.320996509179853e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b41baace38204453b5434d38e06ae4dc67eeff8a2dadf656f1a9f2d7a8a09c6
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4cad0cb38dc1cfd9d71e44429d449ab3e51d66d08c9d80a3c795b07ae099297
+size 3963