hafizhaaarama commited on Jun 13, 2025

Commit

9cdc291

verified ·

1 Parent(s): 5571c98

Upload folder using huggingface_hub

Browse files

Files changed (44) hide show

README.md +8 -6
checkpoint-130/model.safetensors +1 -1
checkpoint-130/optimizer.pt +1 -1
checkpoint-130/scheduler.pt +1 -1
checkpoint-130/trainer_state.json +50 -50
checkpoint-130/training_args.bin +1 -1
checkpoint-195/model.safetensors +1 -1
checkpoint-195/optimizer.pt +1 -1
checkpoint-195/scheduler.pt +1 -1
checkpoint-195/trainer_state.json +73 -73
checkpoint-195/training_args.bin +1 -1
checkpoint-260/model.safetensors +3 -0
checkpoint-260/optimizer.pt +3 -0
checkpoint-260/rng_state.pth +3 -0
checkpoint-260/scheduler.pt +3 -0
checkpoint-260/special_tokens_map.json +7 -0
checkpoint-260/tokenizer.json +0 -0
checkpoint-260/tokenizer_config.json +56 -0
checkpoint-260/trainer_state.json +248 -0
checkpoint-260/training_args.bin +3 -0
checkpoint-260/vocab.txt +0 -0
checkpoint-325/model.safetensors +3 -0
checkpoint-325/optimizer.pt +3 -0
checkpoint-325/rng_state.pth +3 -0
checkpoint-325/scheduler.pt +3 -0
checkpoint-325/special_tokens_map.json +7 -0
checkpoint-325/tokenizer.json +0 -0
checkpoint-325/tokenizer_config.json +56 -0
checkpoint-325/trainer_state.json +298 -0
checkpoint-325/training_args.bin +3 -0
checkpoint-325/vocab.txt +0 -0
checkpoint-65/model.safetensors +3 -0
checkpoint-65/optimizer.pt +3 -0
checkpoint-65/rng_state.pth +3 -0
checkpoint-65/scheduler.pt +3 -0
checkpoint-65/special_tokens_map.json +7 -0
checkpoint-65/tokenizer.json +0 -0
checkpoint-65/tokenizer_config.json +56 -0
checkpoint-65/trainer_state.json +84 -0
checkpoint-65/training_args.bin +3 -0
checkpoint-65/vocab.txt +0 -0
model.safetensors +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0067
 ## Model description
@@ -35,21 +35,23 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.1249        | 1.0   | 65   | 0.0411          |
-| 0.0147        | 2.0   | 130  | 0.0085          |
-| 0.0118        | 3.0   | 195  | 0.0067          |
 ### Framework versions

 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0017
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 5
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.0119        | 1.0   | 65   | 0.0055          |
+| 0.0039        | 2.0   | 130  | 0.0027          |
+| 0.0029        | 3.0   | 195  | 0.0019          |
+| 0.0027        | 4.0   | 260  | 0.0018          |
+| 0.0026        | 5.0   | 325  | 0.0017          |
 ### Framework versions

checkpoint-130/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f062b9ad085c15780b1161f89a51545dbd1afcf2cb524739a52c49fe0222365c
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b688524689f992a89d6c6033eff59f9de284a213648d036333a82ad02755cf3
 size 265491420

checkpoint-130/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3992ac39828d93828796d777d7dd813843f95e8809c86259dad72d03084cea5f
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdc46c7f8faed5dfef2315b88b6794e1887f61836b7ed54ad2187c796ea03380
 size 531042682

checkpoint-130/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fbe91af4c5769bfb655f93dcca687c5a783d2124b57d2ce7beb063d7751faa5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7273f2b5fa3934f4d56fdce2f6a4334466d94af90f50cd48930ff238ed4a876a
 size 1064

checkpoint-130/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 130,
-  "best_metric": 0.008523747324943542,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,116 +11,116 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 9.697171211242676,
-      "learning_rate": 1.907692307692308e-05,
-      "loss": 2.4409,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 7.024130344390869,
-      "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.6879,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 8.873391151428223,
-      "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.0298,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 5.143718719482422,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.4906,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 2.485305070877075,
-      "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2829,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.282047152519226,
-      "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1249,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04110988602042198,
-      "eval_runtime": 27.2776,
-      "eval_samples_per_second": 4.729,
-      "eval_steps_per_second": 0.623,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 0.7192372679710388,
-      "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.0663,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.48828813433647156,
-      "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0416,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.3217748999595642,
-      "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0281,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.2811843454837799,
-      "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0965,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.2007972002029419,
-      "learning_rate": 8.820512820512821e-06,
-      "loss": 0.019,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.18534308671951294,
-      "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0156,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.20706918835639954,
-      "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0147,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.008523747324943542,
-      "eval_runtime": 29.1835,
-      "eval_samples_per_second": 4.42,
-      "eval_steps_per_second": 0.583,
       "step": 130
     }
   ],
   "logging_steps": 10,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
   "best_global_step": 130,
+  "best_metric": 0.0026640458963811398,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 8.8089017868042,
+      "learning_rate": 4.861538461538462e-05,
+      "loss": 2.1939,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 3.6326286792755127,
+      "learning_rate": 4.707692307692308e-05,
+      "loss": 1.1303,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 2.114581823348999,
+      "learning_rate": 4.553846153846154e-05,
+      "loss": 0.3031,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 0.4926183223724365,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0667,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 0.26311376690864563,
+      "learning_rate": 4.2461538461538465e-05,
+      "loss": 0.0229,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 0.16266165673732758,
+      "learning_rate": 4.0923076923076925e-05,
+      "loss": 0.0119,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.005465179681777954,
+      "eval_runtime": 28.3814,
+      "eval_samples_per_second": 4.545,
+      "eval_steps_per_second": 0.599,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 0.09443770349025726,
+      "learning_rate": 3.9384615384615384e-05,
+      "loss": 0.0088,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.05983053520321846,
+      "learning_rate": 3.784615384615385e-05,
+      "loss": 0.0066,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.045136693865060806,
+      "learning_rate": 3.630769230769231e-05,
+      "loss": 0.0053,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.05789942666888237,
+      "learning_rate": 3.476923076923077e-05,
+      "loss": 0.0994,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.06267621368169785,
+      "learning_rate": 3.323076923076923e-05,
+      "loss": 0.0058,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.050915952771902084,
+      "learning_rate": 3.1692307692307696e-05,
+      "loss": 0.0047,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.0482671745121479,
+      "learning_rate": 3.0153846153846155e-05,
+      "loss": 0.0039,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.0026640458963811398,
+      "eval_runtime": 28.7779,
+      "eval_samples_per_second": 4.483,
+      "eval_steps_per_second": 0.591,
       "step": 130
     }
   ],
   "logging_steps": 10,
+  "max_steps": 325,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

checkpoint-130/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:073443c160f218e70f39940b6473a05da96d48c0d26f92a97ad9644c0b98e4b2
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
 size 5240

checkpoint-195/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1c3678511418bfcf53a1ffcd424b0b7ee78fbbf110612cbc0db585216624acd
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b44de11280834fbaa65d65c7ae9c9ff744b07227cb65654b2f34e949a5b6429
 size 265491420

checkpoint-195/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce3cd2e0830c2ef392de2f9c3da38c984be9100056d7b9151c7024e9d1156c32
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b46df0841f7eae17f9332233d59520a12a2b23078c3f39768b9c73b608c089
 size 531042682

checkpoint-195/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6341ae854532c35d5eb7c85e22f5fd447dd3009c5c76f080cb88f0f539b9815b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2aec4d7f710a44a0a1412345131bacaa233a6dae2a3d643b7b1956862e1d086
 size 1064

checkpoint-195/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 195,
-  "best_metric": 0.00674749631434679,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,166 +11,166 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 9.697171211242676,
-      "learning_rate": 1.907692307692308e-05,
-      "loss": 2.4409,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 7.024130344390869,
-      "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.6879,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 8.873391151428223,
-      "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.0298,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 5.143718719482422,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.4906,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 2.485305070877075,
-      "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2829,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.282047152519226,
-      "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1249,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04110988602042198,
-      "eval_runtime": 27.2776,
-      "eval_samples_per_second": 4.729,
-      "eval_steps_per_second": 0.623,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 0.7192372679710388,
-      "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.0663,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.48828813433647156,
-      "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0416,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.3217748999595642,
-      "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0281,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.2811843454837799,
-      "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0965,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.2007972002029419,
-      "learning_rate": 8.820512820512821e-06,
-      "loss": 0.019,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.18534308671951294,
-      "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0156,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.20706918835639954,
-      "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0147,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.008523747324943542,
-      "eval_runtime": 29.1835,
-      "eval_samples_per_second": 4.42,
-      "eval_steps_per_second": 0.583,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
-      "grad_norm": 0.18737384676933289,
-      "learning_rate": 5.743589743589743e-06,
-      "loss": 0.0141,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 0.1485062688589096,
-      "learning_rate": 4.717948717948718e-06,
-      "loss": 0.0134,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
-      "grad_norm": 0.15001751482486725,
-      "learning_rate": 3.692307692307693e-06,
-      "loss": 0.0122,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
-      "grad_norm": 0.174443319439888,
-      "learning_rate": 2.666666666666667e-06,
-      "loss": 0.012,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
-      "grad_norm": 0.1295892894268036,
-      "learning_rate": 1.6410256410256412e-06,
-      "loss": 0.012,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
-      "grad_norm": 0.12927618622779846,
-      "learning_rate": 6.153846153846155e-07,
-      "loss": 0.0118,
       "step": 190
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.00674749631434679,
-      "eval_runtime": 27.72,
-      "eval_samples_per_second": 4.654,
-      "eval_steps_per_second": 0.613,
       "step": 195
     }
   ],
   "logging_steps": 10,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -179,7 +179,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

 {
   "best_global_step": 195,
+  "best_metric": 0.001924663782119751,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 8.8089017868042,
+      "learning_rate": 4.861538461538462e-05,
+      "loss": 2.1939,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 3.6326286792755127,
+      "learning_rate": 4.707692307692308e-05,
+      "loss": 1.1303,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 2.114581823348999,
+      "learning_rate": 4.553846153846154e-05,
+      "loss": 0.3031,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 0.4926183223724365,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0667,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 0.26311376690864563,
+      "learning_rate": 4.2461538461538465e-05,
+      "loss": 0.0229,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 0.16266165673732758,
+      "learning_rate": 4.0923076923076925e-05,
+      "loss": 0.0119,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.005465179681777954,
+      "eval_runtime": 28.3814,
+      "eval_samples_per_second": 4.545,
+      "eval_steps_per_second": 0.599,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 0.09443770349025726,
+      "learning_rate": 3.9384615384615384e-05,
+      "loss": 0.0088,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.05983053520321846,
+      "learning_rate": 3.784615384615385e-05,
+      "loss": 0.0066,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.045136693865060806,
+      "learning_rate": 3.630769230769231e-05,
+      "loss": 0.0053,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.05789942666888237,
+      "learning_rate": 3.476923076923077e-05,
+      "loss": 0.0994,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.06267621368169785,
+      "learning_rate": 3.323076923076923e-05,
+      "loss": 0.0058,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.050915952771902084,
+      "learning_rate": 3.1692307692307696e-05,
+      "loss": 0.0047,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.0482671745121479,
+      "learning_rate": 3.0153846153846155e-05,
+      "loss": 0.0039,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.0026640458963811398,
+      "eval_runtime": 28.7779,
+      "eval_samples_per_second": 4.483,
+      "eval_steps_per_second": 0.591,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
+      "grad_norm": 0.041481729596853256,
+      "learning_rate": 2.8615384615384615e-05,
+      "loss": 0.0038,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 0.04328610375523567,
+      "learning_rate": 2.7076923076923078e-05,
+      "loss": 0.0037,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
+      "grad_norm": 0.03569851815700531,
+      "learning_rate": 2.5538461538461538e-05,
+      "loss": 0.0033,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
+      "grad_norm": 0.027992915362119675,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0033,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
+      "grad_norm": 0.026577744632959366,
+      "learning_rate": 2.246153846153846e-05,
+      "loss": 0.003,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
+      "grad_norm": 0.031246010214090347,
+      "learning_rate": 2.0923076923076923e-05,
+      "loss": 0.0029,
       "step": 190
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.001924663782119751,
+      "eval_runtime": 29.0281,
+      "eval_samples_per_second": 4.444,
+      "eval_steps_per_second": 0.586,
       "step": 195
     }
   ],
   "logging_steps": 10,
+  "max_steps": 325,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

checkpoint-195/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:073443c160f218e70f39940b6473a05da96d48c0d26f92a97ad9644c0b98e4b2
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
 size 5240

checkpoint-260/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca4628d2fbe94cefe7938ba160894f0dbfb4c5dd54665cc6d896d933bac44f01
+size 265491420

checkpoint-260/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:219a3bcade79f93edcabc30f95ff8506e8cb0137eff43bd4da704362b151d763
+size 531042682

checkpoint-260/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a05a945c5aa1a654d7904fdade8497ed47845adcf3dfc34bd357e4a5217dd388
+size 13990

checkpoint-260/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f398f2121146e0aac7fcb103a78ed42fee3d3308e81e6c93c884800519a86957
+size 1064

checkpoint-260/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-260/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-260/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-260/trainer_state.json ADDED Viewed

	@@ -0,0 +1,248 @@

+{
+  "best_global_step": 260,
+  "best_metric": 0.0018482182640582323,
+  "best_model_checkpoint": "./multitask_model/checkpoint-260",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 260,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 8.8089017868042,
+      "learning_rate": 4.861538461538462e-05,
+      "loss": 2.1939,
+      "step": 10
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 3.6326286792755127,
+      "learning_rate": 4.707692307692308e-05,
+      "loss": 1.1303,
+      "step": 20
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 2.114581823348999,
+      "learning_rate": 4.553846153846154e-05,
+      "loss": 0.3031,
+      "step": 30
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.4926183223724365,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0667,
+      "step": 40
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.26311376690864563,
+      "learning_rate": 4.2461538461538465e-05,
+      "loss": 0.0229,
+      "step": 50
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.16266165673732758,
+      "learning_rate": 4.0923076923076925e-05,
+      "loss": 0.0119,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.005465179681777954,
+      "eval_runtime": 28.3814,
+      "eval_samples_per_second": 4.545,
+      "eval_steps_per_second": 0.599,
+      "step": 65
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 0.09443770349025726,
+      "learning_rate": 3.9384615384615384e-05,
+      "loss": 0.0088,
+      "step": 70
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 0.05983053520321846,
+      "learning_rate": 3.784615384615385e-05,
+      "loss": 0.0066,
+      "step": 80
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 0.045136693865060806,
+      "learning_rate": 3.630769230769231e-05,
+      "loss": 0.0053,
+      "step": 90
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 0.05789942666888237,
+      "learning_rate": 3.476923076923077e-05,
+      "loss": 0.0994,
+      "step": 100
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 0.06267621368169785,
+      "learning_rate": 3.323076923076923e-05,
+      "loss": 0.0058,
+      "step": 110
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 0.050915952771902084,
+      "learning_rate": 3.1692307692307696e-05,
+      "loss": 0.0047,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.0482671745121479,
+      "learning_rate": 3.0153846153846155e-05,
+      "loss": 0.0039,
+      "step": 130
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0026640458963811398,
+      "eval_runtime": 28.7779,
+      "eval_samples_per_second": 4.483,
+      "eval_steps_per_second": 0.591,
+      "step": 130
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 0.041481729596853256,
+      "learning_rate": 2.8615384615384615e-05,
+      "loss": 0.0038,
+      "step": 140
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.04328610375523567,
+      "learning_rate": 2.7076923076923078e-05,
+      "loss": 0.0037,
+      "step": 150
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.03569851815700531,
+      "learning_rate": 2.5538461538461538e-05,
+      "loss": 0.0033,
+      "step": 160
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.027992915362119675,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0033,
+      "step": 170
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 0.026577744632959366,
+      "learning_rate": 2.246153846153846e-05,
+      "loss": 0.003,
+      "step": 180
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 0.031246010214090347,
+      "learning_rate": 2.0923076923076923e-05,
+      "loss": 0.0029,
+      "step": 190
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.001924663782119751,
+      "eval_runtime": 29.0281,
+      "eval_samples_per_second": 4.444,
+      "eval_steps_per_second": 0.586,
+      "step": 195
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 0.03536583110690117,
+      "learning_rate": 1.9384615384615383e-05,
+      "loss": 0.3434,
+      "step": 200
+    },
+    {
+      "epoch": 3.230769230769231,
+      "grad_norm": 0.03196291625499725,
+      "learning_rate": 1.7846153846153846e-05,
+      "loss": 0.0032,
+      "step": 210
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 0.05442598834633827,
+      "learning_rate": 1.630769230769231e-05,
+      "loss": 0.0034,
+      "step": 220
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "grad_norm": 0.02654326893389225,
+      "learning_rate": 1.4769230769230772e-05,
+      "loss": 0.0766,
+      "step": 230
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 0.034997936338186264,
+      "learning_rate": 1.3230769230769233e-05,
+      "loss": 0.0038,
+      "step": 240
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.027517210692167282,
+      "learning_rate": 1.1692307692307693e-05,
+      "loss": 0.0041,
+      "step": 250
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.04248378798365593,
+      "learning_rate": 1.0153846153846154e-05,
+      "loss": 0.0027,
+      "step": 260
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.0018482182640582323,
+      "eval_runtime": 29.088,
+      "eval_samples_per_second": 4.435,
+      "eval_steps_per_second": 0.584,
+      "step": 260
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 325,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-260/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
+size 5240

checkpoint-260/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-325/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7799fbc15e49a5c41fcc8de8c0abbd168e5d0bbb3f98e94e4342e9b6aafd3c33
+size 265491420

checkpoint-325/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9168ce922a3e34d30679ca47c18c4fb2455be976cad55b55b03af815d00cd14f
+size 531042682

checkpoint-325/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7ff827dc3b4e3145d896ac7a21efe1c9d9483596d5261a886232b9d11097911
+size 13990

checkpoint-325/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f65fd15d19c13da73183b7d20ebcd6a2a19e7ae35c586d6625d4ab79074ffa6c
+size 1064

checkpoint-325/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-325/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-325/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-325/trainer_state.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "best_global_step": 325,
+  "best_metric": 0.00168671237770468,
+  "best_model_checkpoint": "./multitask_model/checkpoint-325",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 325,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 8.8089017868042,
+      "learning_rate": 4.861538461538462e-05,
+      "loss": 2.1939,
+      "step": 10
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 3.6326286792755127,
+      "learning_rate": 4.707692307692308e-05,
+      "loss": 1.1303,
+      "step": 20
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 2.114581823348999,
+      "learning_rate": 4.553846153846154e-05,
+      "loss": 0.3031,
+      "step": 30
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.4926183223724365,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0667,
+      "step": 40
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.26311376690864563,
+      "learning_rate": 4.2461538461538465e-05,
+      "loss": 0.0229,
+      "step": 50
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.16266165673732758,
+      "learning_rate": 4.0923076923076925e-05,
+      "loss": 0.0119,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.005465179681777954,
+      "eval_runtime": 28.3814,
+      "eval_samples_per_second": 4.545,
+      "eval_steps_per_second": 0.599,
+      "step": 65
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 0.09443770349025726,
+      "learning_rate": 3.9384615384615384e-05,
+      "loss": 0.0088,
+      "step": 70
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 0.05983053520321846,
+      "learning_rate": 3.784615384615385e-05,
+      "loss": 0.0066,
+      "step": 80
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 0.045136693865060806,
+      "learning_rate": 3.630769230769231e-05,
+      "loss": 0.0053,
+      "step": 90
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 0.05789942666888237,
+      "learning_rate": 3.476923076923077e-05,
+      "loss": 0.0994,
+      "step": 100
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 0.06267621368169785,
+      "learning_rate": 3.323076923076923e-05,
+      "loss": 0.0058,
+      "step": 110
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 0.050915952771902084,
+      "learning_rate": 3.1692307692307696e-05,
+      "loss": 0.0047,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.0482671745121479,
+      "learning_rate": 3.0153846153846155e-05,
+      "loss": 0.0039,
+      "step": 130
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0026640458963811398,
+      "eval_runtime": 28.7779,
+      "eval_samples_per_second": 4.483,
+      "eval_steps_per_second": 0.591,
+      "step": 130
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 0.041481729596853256,
+      "learning_rate": 2.8615384615384615e-05,
+      "loss": 0.0038,
+      "step": 140
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.04328610375523567,
+      "learning_rate": 2.7076923076923078e-05,
+      "loss": 0.0037,
+      "step": 150
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.03569851815700531,
+      "learning_rate": 2.5538461538461538e-05,
+      "loss": 0.0033,
+      "step": 160
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.027992915362119675,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0033,
+      "step": 170
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 0.026577744632959366,
+      "learning_rate": 2.246153846153846e-05,
+      "loss": 0.003,
+      "step": 180
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 0.031246010214090347,
+      "learning_rate": 2.0923076923076923e-05,
+      "loss": 0.0029,
+      "step": 190
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.001924663782119751,
+      "eval_runtime": 29.0281,
+      "eval_samples_per_second": 4.444,
+      "eval_steps_per_second": 0.586,
+      "step": 195
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 0.03536583110690117,
+      "learning_rate": 1.9384615384615383e-05,
+      "loss": 0.3434,
+      "step": 200
+    },
+    {
+      "epoch": 3.230769230769231,
+      "grad_norm": 0.03196291625499725,
+      "learning_rate": 1.7846153846153846e-05,
+      "loss": 0.0032,
+      "step": 210
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 0.05442598834633827,
+      "learning_rate": 1.630769230769231e-05,
+      "loss": 0.0034,
+      "step": 220
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "grad_norm": 0.02654326893389225,
+      "learning_rate": 1.4769230769230772e-05,
+      "loss": 0.0766,
+      "step": 230
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 0.034997936338186264,
+      "learning_rate": 1.3230769230769233e-05,
+      "loss": 0.0038,
+      "step": 240
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.027517210692167282,
+      "learning_rate": 1.1692307692307693e-05,
+      "loss": 0.0041,
+      "step": 250
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.04248378798365593,
+      "learning_rate": 1.0153846153846154e-05,
+      "loss": 0.0027,
+      "step": 260
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.0018482182640582323,
+      "eval_runtime": 29.088,
+      "eval_samples_per_second": 4.435,
+      "eval_steps_per_second": 0.584,
+      "step": 260
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 0.022280381992459297,
+      "learning_rate": 8.615384615384615e-06,
+      "loss": 0.0026,
+      "step": 270
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 0.019785910844802856,
+      "learning_rate": 7.076923076923076e-06,
+      "loss": 0.0025,
+      "step": 280
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 0.024894440546631813,
+      "learning_rate": 5.5384615384615385e-06,
+      "loss": 0.0025,
+      "step": 290
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.02627086639404297,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0027,
+      "step": 300
+    },
+    {
+      "epoch": 4.769230769230769,
+      "grad_norm": 0.02380353771150112,
+      "learning_rate": 2.4615384615384615e-06,
+      "loss": 0.0026,
+      "step": 310
+    },
+    {
+      "epoch": 4.923076923076923,
+      "grad_norm": 0.02841930277645588,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.0026,
+      "step": 320
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.00168671237770468,
+      "eval_runtime": 28.7127,
+      "eval_samples_per_second": 4.493,
+      "eval_steps_per_second": 0.592,
+      "step": 325
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 325,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-325/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
+size 5240

checkpoint-325/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-65/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cb825538b96470c8e6fef5f37164969c0f6358f82a785aaa64bcb5c172ce0f3
+size 265491420

checkpoint-65/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab25565f9bed3dcf21d6900aa0235d5967053090a699eb97f6406970826f0902
+size 531042682

checkpoint-65/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ed81109884212e008c22a3f3219503fe6c9802fc67f6757cce69b9a1832ae5f
+size 13990

checkpoint-65/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:804ba4f1dab328314e2adde75ea376ac7ba6063fa1c99fb8442cadf8619e5cc9
+size 1064

checkpoint-65/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-65/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-65/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-65/trainer_state.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "best_global_step": 65,
+  "best_metric": 0.005465179681777954,
+  "best_model_checkpoint": "./multitask_model/checkpoint-65",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 65,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 8.8089017868042,
+      "learning_rate": 4.861538461538462e-05,
+      "loss": 2.1939,
+      "step": 10
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 3.6326286792755127,
+      "learning_rate": 4.707692307692308e-05,
+      "loss": 1.1303,
+      "step": 20
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 2.114581823348999,
+      "learning_rate": 4.553846153846154e-05,
+      "loss": 0.3031,
+      "step": 30
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.4926183223724365,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0667,
+      "step": 40
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.26311376690864563,
+      "learning_rate": 4.2461538461538465e-05,
+      "loss": 0.0229,
+      "step": 50
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.16266165673732758,
+      "learning_rate": 4.0923076923076925e-05,
+      "loss": 0.0119,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.005465179681777954,
+      "eval_runtime": 28.3814,
+      "eval_samples_per_second": 4.545,
+      "eval_steps_per_second": 0.599,
+      "step": 65
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 325,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-65/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
+size 5240

checkpoint-65/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1c3678511418bfcf53a1ffcd424b0b7ee78fbbf110612cbc0db585216624acd
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:7799fbc15e49a5c41fcc8de8c0abbd168e5d0bbb3f98e94e4342e9b6aafd3c33
 size 265491420

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42a73d0354f4a551827f18e2d69462ece69163777d0e4b293be9e21cef74917c
 size 265519274

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dd544cc99f7916aef5c08cda4af7229a72e34d7cb06177d735bdb180d3c58e4
 size 265519274

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:073443c160f218e70f39940b6473a05da96d48c0d26f92a97ad9644c0b98e4b2
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:46098c8581f529d1e81c3e5c89a28fe04605657218470fc5b76dd1763697bb6e
 size 5240