Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +4 -4
checkpoint-130/model.safetensors +1 -1
checkpoint-130/optimizer.pt +1 -1
checkpoint-130/trainer_state.json +35 -35
checkpoint-195/model.safetensors +1 -1
checkpoint-195/optimizer.pt +1 -1
checkpoint-195/trainer_state.json +51 -51
model.safetensors +1 -1
pytorch_model.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0070
 ## Model description
@@ -47,9 +47,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.1202        | 1.0   | 65   | 0.0436          |
-| 0.0148        | 2.0   | 130  | 0.0088          |
-| 0.011         | 3.0   | 195  | 0.0070          |
 ### Framework versions

 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0074
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.123         | 1.0   | 65   | 0.0443          |
+| 0.0155        | 2.0   | 130  | 0.0094          |
+| 0.012         | 3.0   | 195  | 0.0074          |
 ### Framework versions

checkpoint-130/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27861ce206204eaba3e064bc1234915aa98cf2923b75a7cba38c64f75460a81f
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:3daa9eea808ffe8225bd452638e5dc64fdfc4f4a7c167334f74d80671c30bc17
 size 265491420

checkpoint-130/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:360b3ecc74ac89b61b1dbe47fd7e72dc35849c97292bb0c75f39106bf526ef29
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:b036d5af97deac083d91313d1cdc88e8593cddcc760f5a2ef3aa1545da5444c5
 size 531042682

checkpoint-130/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 130,
-  "best_metric": 0.008769548498094082,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,109 +11,109 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 8.848017692565918,
       "learning_rate": 1.907692307692308e-05,
-      "loss": 2.3929,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 6.566382884979248,
       "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.8245,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 6.213647365570068,
       "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.153,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 4.559297561645508,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.5311,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 3.087829828262329,
       "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2819,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.9372252225875854,
       "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1202,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04360657185316086,
-      "eval_runtime": 27.4875,
-      "eval_samples_per_second": 4.693,
-      "eval_steps_per_second": 0.618,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 1.4653043746948242,
       "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.069,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.5297175049781799,
       "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0403,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.3341902196407318,
       "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0274,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.22006157040596008,
       "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0887,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.24235276877880096,
       "learning_rate": 8.820512820512821e-06,
-      "loss": 0.0187,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.19090554118156433,
       "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0153,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.24662891030311584,
       "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0148,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.008769548498094082,
-      "eval_runtime": 29.1744,
-      "eval_samples_per_second": 4.422,
-      "eval_steps_per_second": 0.583,
       "step": 130
     }
   ],

 {
   "best_global_step": 130,
+  "best_metric": 0.009373976849019527,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 9.446246147155762,
       "learning_rate": 1.907692307692308e-05,
+      "loss": 2.5127,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 9.2477388381958,
       "learning_rate": 1.8051282051282053e-05,
+      "loss": 1.7956,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 6.766201972961426,
       "learning_rate": 1.7025641025641026e-05,
+      "loss": 1.0579,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 4.436944007873535,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5065,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 3.0510072708129883,
       "learning_rate": 1.4974358974358976e-05,
+      "loss": 0.2671,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 1.749082326889038,
       "learning_rate": 1.3948717948717949e-05,
+      "loss": 0.123,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.04429418966174126,
+      "eval_runtime": 27.7256,
+      "eval_samples_per_second": 4.653,
+      "eval_steps_per_second": 0.613,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 0.8964239358901978,
       "learning_rate": 1.2923076923076925e-05,
+      "loss": 0.0703,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.4807032644748688,
       "learning_rate": 1.1897435897435898e-05,
+      "loss": 0.0427,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.2845948338508606,
       "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.0287,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.2532653212547302,
       "learning_rate": 9.846153846153848e-06,
+      "loss": 0.0802,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.21684786677360535,
       "learning_rate": 8.820512820512821e-06,
+      "loss": 0.0193,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.21939833462238312,
       "learning_rate": 7.794871794871796e-06,
+      "loss": 0.0167,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.30571332573890686,
       "learning_rate": 6.76923076923077e-06,
+      "loss": 0.0155,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.009373976849019527,
+      "eval_runtime": 27.7826,
+      "eval_samples_per_second": 4.643,
+      "eval_steps_per_second": 0.612,
       "step": 130
     }
   ],

checkpoint-195/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:467fe70f53d9c1de6ce1b477b9256bd448dc5808b44f6e0de868d8191a929768
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad40914ec1d6e82ded9ea1dfc2e3003fecb50caae7cea8310a475a0fd18cdb01
 size 265491420

checkpoint-195/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5726bd848ac9e051330bcf9acbd3677b8e2242d416a21e08899de8c22110c311
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:00c1b8e0118e17d33b02a6f3ae1e5b5af5d8be12b098ef9301f21e82ef0fffdd
 size 531042682

checkpoint-195/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 195,
-  "best_metric": 0.006962933111935854,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,159 +11,159 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 8.848017692565918,
       "learning_rate": 1.907692307692308e-05,
-      "loss": 2.3929,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 6.566382884979248,
       "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.8245,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 6.213647365570068,
       "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.153,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 4.559297561645508,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.5311,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 3.087829828262329,
       "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2819,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.9372252225875854,
       "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1202,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04360657185316086,
-      "eval_runtime": 27.4875,
-      "eval_samples_per_second": 4.693,
-      "eval_steps_per_second": 0.618,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 1.4653043746948242,
       "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.069,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.5297175049781799,
       "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0403,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.3341902196407318,
       "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0274,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.22006157040596008,
       "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0887,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.24235276877880096,
       "learning_rate": 8.820512820512821e-06,
-      "loss": 0.0187,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.19090554118156433,
       "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0153,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.24662891030311584,
       "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0148,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.008769548498094082,
-      "eval_runtime": 29.1744,
-      "eval_samples_per_second": 4.422,
-      "eval_steps_per_second": 0.583,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
-      "grad_norm": 0.18622471392154694,
       "learning_rate": 5.743589743589743e-06,
-      "loss": 0.0133,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 0.13862484693527222,
       "learning_rate": 4.717948717948718e-06,
-      "loss": 0.0127,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
-      "grad_norm": 0.13039974868297577,
       "learning_rate": 3.692307692307693e-06,
-      "loss": 0.0121,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
-      "grad_norm": 0.12112937867641449,
       "learning_rate": 2.666666666666667e-06,
-      "loss": 0.0117,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
-      "grad_norm": 0.14916230738162994,
       "learning_rate": 1.6410256410256412e-06,
-      "loss": 0.012,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
-      "grad_norm": 0.1365734338760376,
       "learning_rate": 6.153846153846155e-07,
-      "loss": 0.011,
       "step": 190
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.006962933111935854,
-      "eval_runtime": 27.4605,
-      "eval_samples_per_second": 4.698,
-      "eval_steps_per_second": 0.619,
       "step": 195
     }
   ],

 {
   "best_global_step": 195,
+  "best_metric": 0.007365252822637558,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 9.446246147155762,
       "learning_rate": 1.907692307692308e-05,
+      "loss": 2.5127,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 9.2477388381958,
       "learning_rate": 1.8051282051282053e-05,
+      "loss": 1.7956,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 6.766201972961426,
       "learning_rate": 1.7025641025641026e-05,
+      "loss": 1.0579,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 4.436944007873535,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5065,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 3.0510072708129883,
       "learning_rate": 1.4974358974358976e-05,
+      "loss": 0.2671,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 1.749082326889038,
       "learning_rate": 1.3948717948717949e-05,
+      "loss": 0.123,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.04429418966174126,
+      "eval_runtime": 27.7256,
+      "eval_samples_per_second": 4.653,
+      "eval_steps_per_second": 0.613,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 0.8964239358901978,
       "learning_rate": 1.2923076923076925e-05,
+      "loss": 0.0703,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.4807032644748688,
       "learning_rate": 1.1897435897435898e-05,
+      "loss": 0.0427,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.2845948338508606,
       "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.0287,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.2532653212547302,
       "learning_rate": 9.846153846153848e-06,
+      "loss": 0.0802,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.21684786677360535,
       "learning_rate": 8.820512820512821e-06,
+      "loss": 0.0193,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.21939833462238312,
       "learning_rate": 7.794871794871796e-06,
+      "loss": 0.0167,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.30571332573890686,
       "learning_rate": 6.76923076923077e-06,
+      "loss": 0.0155,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.009373976849019527,
+      "eval_runtime": 27.7826,
+      "eval_samples_per_second": 4.643,
+      "eval_steps_per_second": 0.612,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
+      "grad_norm": 0.1729351133108139,
       "learning_rate": 5.743589743589743e-06,
+      "loss": 0.0142,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 0.17881758511066437,
       "learning_rate": 4.717948717948718e-06,
+      "loss": 0.014,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
+      "grad_norm": 0.169098898768425,
       "learning_rate": 3.692307692307693e-06,
+      "loss": 0.0128,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
+      "grad_norm": 0.1436285525560379,
       "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0126,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
+      "grad_norm": 0.18196596205234528,
       "learning_rate": 1.6410256410256412e-06,
+      "loss": 0.0125,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
+      "grad_norm": 0.12713010609149933,
       "learning_rate": 6.153846153846155e-07,
+      "loss": 0.012,
       "step": 190
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.007365252822637558,
+      "eval_runtime": 27.7479,
+      "eval_samples_per_second": 4.649,
+      "eval_steps_per_second": 0.613,
       "step": 195
     }
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:467fe70f53d9c1de6ce1b477b9256bd448dc5808b44f6e0de868d8191a929768
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad40914ec1d6e82ded9ea1dfc2e3003fecb50caae7cea8310a475a0fd18cdb01
 size 265491420

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42fd68e28d72f8c64407387bf9a4a3618147720c354a88928db89f6c051081ef
 size 265519274

 version https://git-lfs.github.com/spec/v1
+oid sha256:22d98495169cd5fe7fae525f39d82ac1cc79d80eb28a1e9965faf169da9dbfd4
 size 265519274